HELP : Scaper un annuaire sous pdf

Hello la Team,
Je bloque sur un sujet … J’ai impérativement besoin de récupérer les éléments de chacune des sociétés afin de les organiser dans un fichier sheet.
voila a quoi ressemble le fichier : FFB_ANNUAIRE_2022_ok .pdf - Google Drive
Connaissez vous un outil ou un Growth qui pourrait m’aider

Tu peux extraire facilement les données du pdf et/ou les C/C à la main. Comme les données sont toujours les mêmes et dans le même ordre, un petit script pour remettre ça sous forme de tableau ne devrait pas être compliqué.
Sinon les données sont aussi en lignes et certaines personnes du forum étaient en train de les récupérer.

1 « J'aime »

Hello Morph,

merci pour ton retour

Si je comprends bien, tu me suggeres de faire des copier collé à la main et ensuite d’utiliser un script pour remettre tout ca en ordre.

Est-ce que tu as tenté GPT avec un plugin pdf et csv ?

2 « J'aime »

Tu convertis ton pdf en texte avec une librairie python, comme les données seront dans le même ordre chaque fois tu fais un script qui met la ligne 1 dans la colonne nom, la ligne 2 dans la colonne numéro, la ligne 3 dans la colonne email, etc.

Si vraiment tu galères on peut regarder ensemble. Et je n’ai pas trop regardé mais je suis a peu près sur qu’il doit y avoir des logiciel gratuit qui le font ou alors tu demandes à ChatGPT d’écrire ton script

1 « J'aime »

Excellent, merci Frankyyy
Je vais regarder

Merci Camille,

Je vais regarder ce que Gpt me propose

C’est ce que je pensais mais en fait il y a des subtilités :wink:
(le nombre de champs n’est pas toujours le même, certains champs peuvent être sur plusieurs lignes etc… cela n’empêche pas d’en faire un tableau, mais ce n’est pas aussi simple que ce que je pensais)

@Philou , c’est pas hyper propre, mais ça devrait faire ton bonheur

2 « J'aime »

Ouah,
Mais c’est génial, Merci Merci

C’est juste génial…
tu peux me dire comment tu as réussi en aussi peu de temps

En résumé, j’ai copié/collé l’intégralité du pdf dans un ficher texte, ensuite comme le suggérait @frankyyyy , j’ai traité ce fichier avec un script qui place chaque ligne dans un tableau, le tout est de savoir quand il faut changer de ligne (= une nouvelle société) car ce n’est pas régulier.
…tout en éliminant les données parasites (numéro de page, alphabet etc…)

1 « J'aime »