Extration texte dans un pdf ou image python

Bonjour les cracks,

Je cherche à developper un script python qui permet d’extraire du texte dans un pdf ou image.

Coté pdf j’y arrive. Mais coté image un peu compliqué. Surtout quand c’est une image convertie en pdf ou un scan.

Quelqu’un aurait un script python ou piste pour aider ?

1 « J'aime »

PDF et photos, je le fais avec la dernière version Images de ChatGpt.

Pas de script python ?

l’API OCR de mistral est géniale pour ça.

2 « J'aime »

Salut, j’ai déjà converti le texte des images en python en utilisant GitHub - tesseract-ocr/tesseract: Tesseract Open Source OCR Engine (main repository)

Malheureusement j’ai plus le script mais tu peux demander à chatgpt de te le faire, et au moins c’est gratos

Si tu veux pas te casser la tête, l’API Mistral fait le taff

hello !

en tapant “python OCR tuto pdf image“ j’ai trouvé ca

https://www.datacamp.com/fr/tutorial/optical-character-recognition-ocr-in-python-with-pytesseract

du snippet à gogo, tout pour ce que tu cherches (image / pdf)

a + dans l’bus :wink:

hello! J’utilise google antigravity pour ce genre de tâches, il crée ses propres scripts python et tu as juste à communiquer avec en langage naturel, c’est génial

Ce que j’utilise depuis le depuis mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.

Ce que j’utilise depuis le debut mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.

Pour info c’est pour detecté correctement le mrz d’un passeport.

Idem aussi Ce que j’utilise depuis le debut mais trop de mal interpretation de certains caracteres comme s et 5, 6 et g, etc. un peu difficile de corriger cela.

Pour info c’est pour detecté correctement le mrz d’un passeport.

Pas besoin de rentrer de scripts dans une IA :slightly_smiling_face: , juste un prompt.