GH extract mail d'un scan papier

Bonjour à tous !

Je me présente Cassandre une apprentie Gowth Hacker au sein d’une agence d’événementiel B2B.
Je viens de plonger dans l’univers du Growth Hacking et ne maîtrise que très peu le codage.
C’est pourquoi je me tourne vers vous.

J’ai pour missions d’extraire : adresses mails / nom / prénom d’annuaire alumnis papier, afin d’en faire une base de données pour de futur campagne de mailing.
J’ai donc déjà découpé et scanné les pages de mon annuaire en haute def. Seulement pour l’instant les logiciels d’OCR ne permettent pas d’avoir un bon rendu. J’ai tenté plusieurs exports, Excel, HTML, CSV mais la structure se casse rendant la gestion des données soit longue soit impossible.

Connaissez vous des logiciels d’OCR puissants pour décrypter et sélectionner des données automatiquement ? Ou une solution alternative pour transformer un Scan papier en données exploitables ?

Je vous remercie par avance pour votre retour :blush:

Bonjour @cassandre_Upgrade

Bienvenue sur le forum, je suis également un nouveau venu, apprentit Growth Hacker ayant déjà trouvé son bonheur grâce à la réactivité des membres !

Quels logiciels d’OCR as-tu déjà testé ?

J’utilise pour ma part une application OCR sous android (peut être dispo chez Apple ?) du nom de CamCard (logo CC bleu et blanc). Cela permet de scanner des pages ou des cartes de visites et d’exporter les données sous excel par exemple.

La qualité de scan dépend surtout de la qualité du support et des polices d’écritures utilisées. Je dirais
dans mon cas que cela scan parfaitement environ 8 fois sur 10 l’ensemble des données présentes sur les cartes de visites.

Si tu veux jouer avec les API, Amazon vient de sortir une nouvelle API d’OCR (Textract)

1 « J'aime »

Si tu bidouilles un peu en Python, tu peux essayer PyTesseract, j’ai fait un article de blog juste là (décidément…) : http://bit.ly/2zGBMDJ :cowboy_hat_face: :crab:

Autre option avec moins d’efforts via LinkedIn mais qui ne te permets pas d’avoir les mails perso mais uniquement les mails des alumnis (type -> [email protected]).

1er point : installer cette extension sur chrome -> https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd

Ensuite tu vas sur LinkedIn, sur une page établissement : image

Sur les pages écoles tu vois ce ce petit cadre, il permet de cibler les alumnis selon le moment où ils ont fréquenté l’école en question (attention à ne pas remonter trop loin : plus on recule dans le temps plus la probabilité que le mail école soit utilisé est faible)

Une fois ton ciblage fais tu scrolles la page au maximum. Après tu mets en surbrillance un « nom prénom », tu fais clic droit et « scrape similar ». Tu importes dans un excel, tu mets les prénoms d’un côté, les noms de l’autre, le pattern du mail école à la fin et tu concatènes :slight_smile:

Pour trouver le pattern du mail école il faut fouiller quelques profils étudiants ou se balader sur le site des écoles pour trouver le format - ça va généralement assez vite.

En espérant que ça te soit utile - l’avantage c’est que c’est très rapide à tester !

Bon courage !

1 « J'aime »