Extraction d'emails de fichiers .pdf, .word et autres extensions


#1

Bonjour La Communauté,

A ce jour j’utilise de façon limité et gratuite Email Extractor pour extraire des @ de documents en .pdf uniquement. et je suis limité en nombre.

Le problème est que ça ne fonctionne pas sur les .word.

Je recherche donc une solution/outil gratuit ou payant (licence) pour extraire sur un maximum de supports et un nombre supérieur à 500 par extraction.

Merci de votre aide - Bonne journée


#2

à l’époque j’utilisais ce soft : https://www.maxprog.com/site/software/internet-marketing/email-extractor_sheet_us.php

C’est une tuerie, ça extract : txt, pdf, doc, docx, xls, xlsx, html, rtf etc…

Apparement il ya une version d’essai.


#3

Il y a des convertisseurs de pdf en xls ou txt en ligne.
A partir de la j’utilise scrapebox pour extraire les emails des txt


#4

Conversion vers html (plein de services proposent ça sur le web notamment depuis pdf et doc)
Ensuite tu peux passer le html à n’importe quel scrapper web traditionnel. (https://www.webscraper.io, scrapy, selenium, xslt, regex, etc…)


#5

merci des réponses Messieurs. je vais jeter un oeil - bonne semaine


#6

Si tu codes un peu, tu peux extraire, et convertir en .pdf, et chercher ensuite une email avec du regex…

Ici le code en python : https://gist.github.com/Lobstrio/b6aa541c141d44b8e93325562ce18171

C’est gratuit, et de volume illimité… :blush:


#7

merci de ta réponse - je ne code pas et suis un newbee dans ce domaine.


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr