Astuce OCR pour décrypter des emails ?

drx · Juillet 28, 2017, 1:43

Hello, en scrappant un site qui montre les emails en tant qu’image, est-ce que qqun a une astuce pour extraire les adresses des images et les coller dans une spreadsheet?

En gros on a une spreadsheet avec toutes les infos à l’intérieur, et à la place de l’email « blabla123.png » qui référence l’image de l’email scrappée. En gros j’aimerai avoir un workflow qui intègre un process OCR qui lise l’image, et copie l’email déchiffré dans une colonne de la même spreadsheet.

Une idée ? merci
#HappyFriday

Camille · Juillet 28, 2017, 3:50

C’est possible, mais il faudrait mieux trouver une technique en amont. C’est quoi le site ? Tu ne parles pas des numéros de tel lbc ?

drx · Juillet 28, 2017, 4:30

Non je ne parle pas des numéros de tel lbc. Je parle de certains annuaires d’entreprises qui mettent l’email en image dans les coordonnées d’entreprise. On pensait à scrapper puis avec les images distantes ou locales, repasser dessus avec un script OCR. Mais je voulais savoir s’il y avait un workflow existant. Dis-moi si tu as besoin d’un exemple et je chercherai. Je suis juste tombé sur quelques annuaires qui présentaient ce problème du coup je me suis posé la question.

Camille · Juillet 28, 2017, 5:13

Oui, je veux bien si tu as un exemple.

drx · Juillet 28, 2017, 5:43

Voici un exemple : http://www.tunisieindex.com/entreprises/Agricoles-Huile-BIO-3274.html

RobinHerzog · Juillet 28, 2017, 7:38

Avec Google ? Tu peux faire le test en live, ça a bien marché avec une adresse du type : http://www.tunisieindex.com/mailimage-entreprise.php?code=3274

drx · Juillet 28, 2017, 7:52

@RobinHerzog yes j’avais vu l’API mais c’est plus savoir comment tu passes d’un spreadsheet dans lequel tu as l’image de référencée > 123456.jpg > qui correspond à un nom de société > l’API OCR scanne l’image puis vient mettre à jour le spreadsheet avec l’email en texte. Le workflow de conversion de l’image en texte dans un spreadsheet en fait.

Camille · Juillet 28, 2017, 8:01

Sur spreadsheet, tu peux faire du GET avec la fonction importxml(), mais l’api Vision, c’est du POST.
Sur excel, avec l’addon seotoolsforexcel tu peux faire du POST par contre.

RobinHerzog · Juillet 28, 2017, 8:03

Sinon au format CSV et en PHP ou Node tu passes ça sous l’API.

cebri · Juillet 28, 2017, 11:12

Tu peux faire du post avec des google script (Javascript), je n’ai jamais essayer d’inclure vision dans gsheet mais je pense que c faisable assez simplement. Si ça branche qq1 d’essayer…go

drx · Juillet 29, 2017, 9:02

Merci pour vos contributions, je vais essayer de voir comment mener tout ça à bien en fonction des différentes suggestions. Si entre temps vous avez d’autres reco n’hesitez pas

Have a great weekend guys!

Camille · Juillet 29, 2017, 9:17

Yes Brice, j’avais vu ça, mais je pense que @drx cherche un truc non-dev.

drx · Juillet 29, 2017, 10:02

@Camille @cebri aucun soucis avec un truc dev. Je cherche juste la meilleure façon d’arriver au résultat. Du coup est-ce que plugger Vision avec Gsheet vous semble l’approche la plus rapide/simple ?

mnmlstrntreprnr · Juillet 29, 2017, 10:05

Sinon en non commercial tu as Tesseract.js (javascript) qui te permettra d’arriver à tes fins. Justement à la suite d’un post sur le forum j’ai poussé l’étude et couplé à du traitement d’image on arrive à de très bon résultats

On est d’accord que ça impliquera probablement la mise en place d’un petit serveur nodejs si tu veux automatiser ton workflow.

drx · Juillet 30, 2017, 8:24

@mnmlstrntreprnr merci pour l’info ! Par contre est-ce que tu peux faire des réglages spécifiques car je viens de tester leur démo (http://tesseract.projectnaptha.com/) avec l’email en exemple ci-dessus, et ça sort un résultat complètement à coté de la plaque. Pour le moment le meilleur résultat est obtenu avec Google Vision en terme d’OCR.

mnmlstrntreprnr · Juillet 30, 2017, 2:40

Même avec quelques tests de traitement d’image je pense que la qualité/taille d’image est trop faible pour obtenir des résultats corrects avec Tesseract.js en effet Je ne suis pas un expert de traitement d’image, il y a surement mieux à faire…

Pour rester sur ta problèmatique (plus que de jouer avec de la réconnaissance de texte… :L), je t’invite également à utiliser l’API Vision avec la feature de Text Recognition. Les résultats sont impeccables après quelques tests

drx · Juillet 31, 2017, 7:54

Effectivement, pour le moment seul Google Vision fonctionne correctement.

ScrapingExpert · Juillet 31, 2017, 10:14

Pour avoir travaillé et encore actuellement, sur des Google App Scripts, je rejoins l’avis de @cebri.

Tu peux facilement développer en JS des méthodes qui vont directement interagir avec l’API Cloud Vision, et dont le contexte principal sera ta Google Spreadsheet. Il y a certainement des exemples de code déjà existant à ce sujet, comme:

dufoli · Août 1, 2017, 3:54

Perso, j’avais le même problème et j’ai utilisé un utilitaire Linux ImageMagick en ligne de commande pour doubler la largeur et la longeur et l’ocr y arrivait mieux

drx · Août 1, 2017, 5:12

@dufoli merci pour le commentaire, en effet après quelques tests avec Vision on a 60% de déchet, du coup c’est pas terrible. Pour rebondir sur ton commentaire, est-ce que tu as simplement doublé la taille de l’image pour avoir une surface plus grande à lire ? Si tu peux m’en dire plus sur ton workflow, ça m’intéresse de comprendre