Astuce OCR pour décrypter des emails ?


#1

Hello, en scrappant un site qui montre les emails en tant qu’image, est-ce que qqun a une astuce pour extraire les adresses des images et les coller dans une spreadsheet?

En gros on a une spreadsheet avec toutes les infos à l’intérieur, et à la place de l’email “blabla123.png” qui référence l’image de l’email scrappée. En gros j’aimerai avoir un workflow qui intègre un process OCR qui lise l’image, et copie l’email déchiffré dans une colonne de la même spreadsheet.

Une idée ? merci :slight_smile:
#HappyFriday


#2

C’est possible, mais il faudrait mieux trouver une technique en amont. C’est quoi le site ? Tu ne parles pas des numéros de tel lbc ?


#3

Non je ne parle pas des numéros de tel lbc. Je parle de certains annuaires d’entreprises qui mettent l’email en image dans les coordonnées d’entreprise. On pensait à scrapper puis avec les images distantes ou locales, repasser dessus avec un script OCR. Mais je voulais savoir s’il y avait un workflow existant. Dis-moi si tu as besoin d’un exemple et je chercherai. Je suis juste tombé sur quelques annuaires qui présentaient ce problème du coup je me suis posé la question.


#4

Oui, je veux bien si tu as un exemple.


#5

Voici un exemple : http://www.tunisieindex.com/entreprises/Agricoles-Huile-BIO-3274.html


#6

Avec Google ? Tu peux faire le test en live, ça a bien marché avec une adresse du type : http://www.tunisieindex.com/mailimage-entreprise.php?code=3274


#7

@RobinHerzog yes j’avais vu l’API mais c’est plus savoir comment tu passes d’un spreadsheet dans lequel tu as l’image de référencée > 123456.jpg > qui correspond à un nom de société > l’API OCR scanne l’image puis vient mettre à jour le spreadsheet avec l’email en texte. Le workflow de conversion de l’image en texte dans un spreadsheet en fait.


#8

Sur spreadsheet, tu peux faire du GET avec la fonction importxml(), mais l’api Vision, c’est du POST.
Sur excel, avec l’addon seotoolsforexcel tu peux faire du POST par contre.


#9

Sinon au format CSV et en PHP ou Node tu passes ça sous l’API.


#10

Tu peux faire du post avec des google script (Javascript), je n’ai jamais essayer d’inclure vision dans gsheet mais je pense que c faisable assez simplement. Si ça branche qq1 d’essayer…go :wink:


#11

Merci pour vos contributions, je vais essayer de voir comment mener tout ça à bien en fonction des différentes suggestions. Si entre temps vous avez d’autres reco n’hesitez pas :slight_smile:

Have a great weekend guys!


#12

Yes Brice, j’avais vu ça, mais je pense que @drx cherche un truc non-dev.


#13

@camillebesse @cebri aucun soucis avec un truc dev. Je cherche juste la meilleure façon d’arriver au résultat. Du coup est-ce que plugger Vision avec Gsheet vous semble l’approche la plus rapide/simple ?


#14

Sinon en non commercial tu as Tesseract.js (javascript) qui te permettra d’arriver à tes fins. Justement à la suite d’un post sur le forum j’ai poussé l’étude et couplé à du traitement d’image on arrive à de très bon résultats :slight_smile:

On est d’accord que ça impliquera probablement la mise en place d’un petit serveur nodejs si tu veux automatiser ton workflow.


#15

@mnmlstrntreprnr merci pour l’info ! Par contre est-ce que tu peux faire des réglages spécifiques car je viens de tester leur démo (http://tesseract.projectnaptha.com/) avec l’email en exemple ci-dessus, et ça sort un résultat complètement à coté de la plaque. Pour le moment le meilleur résultat est obtenu avec Google Vision en terme d’OCR.


#16

Même avec quelques tests de traitement d’image je pense que la qualité/taille d’image est trop faible pour obtenir des résultats corrects avec Tesseract.js en effet :confused: Je ne suis pas un expert de traitement d’image, il y a surement mieux à faire…

Pour rester sur ta problèmatique (plus que de jouer avec de la réconnaissance de texte… :L), je t’invite également à utiliser l’API Vision avec la feature de Text Recognition. Les résultats sont impeccables après quelques tests :slight_smile:


#17

Effectivement, pour le moment seul Google Vision fonctionne correctement.


#18

Pour avoir travaillé et encore actuellement, sur des Google App Scripts, je rejoins l’avis de @cebri.

Tu peux facilement développer en JS des méthodes qui vont directement interagir avec l’API Cloud Vision, et dont le contexte principal sera ta Google Spreadsheet. Il y a certainement des exemples de code déjà existant à ce sujet, comme:


#19

Perso, j’avais le même problème et j’ai utilisé un utilitaire Linux ImageMagick en ligne de commande pour doubler la largeur et la longeur et l’ocr y arrivait mieux


#20

@dufoli merci pour le commentaire, en effet après quelques tests avec Vision on a 60% de déchet, du coup c’est pas terrible. Pour rebondir sur ton commentaire, est-ce que tu as simplement doublé la taille de l’image pour avoir une surface plus grande à lire ? Si tu peux m’en dire plus sur ton workflow, ça m’intéresse de comprendre :slight_smile:


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr