Bonjour les cracks,
Je cherche à developper un script python qui permet d’extraire du texte dans un pdf ou image.
Coté pdf j’y arrive. Mais coté image un peu compliqué. Surtout quand c’est une image convertie en pdf ou un scan.
Quelqu’un aurait un script python ou piste pour aider ?
1 « J'aime »
PDF et photos, je le fais avec la dernière version Images de ChatGpt.
l’API OCR de mistral est géniale pour ça.
2 « J'aime »
Salut, j’ai déjà converti le texte des images en python en utilisant GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)
Malheureusement j’ai plus le script mais tu peux demander à chatgpt de te le faire, et au moins c’est gratos
Si tu veux pas te casser la tête, l’API Mistral fait le taff
hello !
en tapant “python OCR tuto pdf image“ j’ai trouvé ca
https://www.datacamp.com/fr/tutorial/optical-character-recognition-ocr-in-python-with-pytesseract
du snippet à gogo, tout pour ce que tu cherches (image / pdf)
a + dans l’bus 
hello! J’utilise google antigravity pour ce genre de tâches, il crée ses propres scripts python et tu as juste à communiquer avec en langage naturel, c’est génial
Ce que j’utilise depuis le depuis mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.
Ce que j’utilise depuis le debut mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.
Pour info c’est pour detecté correctement le mrz d’un passeport.
Idem aussi Ce que j’utilise depuis le debut mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.
Pour info c’est pour detecté correctement le mrz d’un passeport.
Pas besoin de rentrer de scripts dans une IA
, juste un prompt.