Extraction data pdf vers excel organisé

Smartketing · Mai 30, 2022, 5:19

Bonjour à tous,

J’aimerais extraire de la data depuis un pdf et l’envoyer vers un excel organisé. Cependant je ne trouve pas de solution me permettant de faire cela.

Chaque page a le même template avec un encadré à chaque fois comprenant des informations de contact et ce sont ces données que j’aimerais récupérer.

Merci par avance pour votre aide

Kevin-Zimmermann · Mai 30, 2022, 5:25

Hello @Smartketing,

Tu as cela par exemple, puissant mais plus coûteux (intégration Zapier & Make), il existe des alternatives, cherche « parser pdf » :

Il y avait aussi ce tool sur Appsumo, mais le deal est expiré :

Jorgi · Mai 30, 2022, 7:19

Suffit d’ourvrir le pdf sous word et du bon vieux copier coller

deefuz · Mai 30, 2022, 11:26

Exact où les classiques ilovepdf

Kevin-Zimmermann · Mai 31, 2022, 5:57

@Smartketing,
J’ai mentionné des outils qui permettent de faire un process standardisé

Si c’est pour du petit besoin non régulier et à faire à la main, les solutions de @deefuz, ilovepdf.com ou ouvrir avec Word comme dit par @Jorgi feront l’affaire.

Tu peux aussi utiliser un service comme tinywow.com/tools/pdf

PS : J’aime bien Tinywow (suite d’outils complète) qui est le seul que j’ai trouvé qui reconnaît et permet de modifier les textes présent dans un PDF et pas uniquement d’en ajouter (un peu comme ferait Adobe Acrobat)

Jorgi · Mai 31, 2022, 6:32

Kevin-Zimmermann · Mai 31, 2022, 7:03

Intéressant @Jorgi, je suis sous Linux pour ma part, je pense pas que ce soit le cas de beaucoup (à moins de le faire sur serveur).

Quand je parlais de « process », c’était notamment sur la partie récupération des informations voulues du PDF qui remontent de manière automatisée ailleurs (Google Sheets, etc), sans avoir à la faire à la main à chaque fois.

Smartketing · Mai 31, 2022, 8:01

Salut !

Merci pour ces solutions

deefuz · Mai 31, 2022, 12:40

Très bien oui ! Perso la suite Sejda me va très bien aussi

ClementAubry · Mai 31, 2022, 2:06

Pour ce genre de besoin j’utiliser directement des « pdf to csv online » tools sur google.

Mais en fonction de la structure des pages, c’est parfois un peu chaotique. La réponse la plus satisfaisante que j’ai trouvé pour le moment est de convertir le pdf en html puis de le parser (par exemple avec BeautifulSoup en python)

egrange · Juin 6, 2022, 1:24

https://hexomatic.com/ pour créer un worklow OCR PDF puis envoi sur Gsheet.

sept · Juin 8, 2022, 9:21

Veuillez voir, j’espère que cet article vous aidera.

system · Juin 8, 2023, 8:54

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.