Scraping Selenium + OCR

Bonjour à tous,

J’ai pu mettre la main sur un fichier/service très intéressant pour ma prospection commerciale, mais ce fichier n’est pas un bête site ou un PDF. Impossible, a priori, de scraper le contenu. La plateforme utilisée est ecobook.eu.

Avez-vous déjà mis en oeuvre ou vu une solution basée sur du Selenium et de l’OCR ?
Si ça ne marche pas, je n’aurais pas d’autre choix que de faire faire ça sur Fiverr, mais le taux de mauvaise saisie m’inquiète.

Merci !

Hello, il faut un échantillon de ton fichier pour décider de la méthode.

Salut Lorent,

Le souci, c’est qu’il n’y a pas de fichier : c’est un service en ligne depuis lequel je ne peux pas faire de copier/coller, d’où mon besoin en OCR.

Éventuellement vous ne pouvez pas prendre une capture d’écran de la zone qui vous intéresse et l’enregistrer au format PNG avec Selenium ?

Ensuite vous pouvez en extraire le texte avec Tesseract et OpenCV par exemple.

1 « J'aime »