Extraire numéro de tél depuis base de données .pdf

Hello la communauté !

Je rencontre une problématique : j’ai quelques milliers de .pdf avec des numéros de téléphone dans les fichiers.

Je souhaiterais pouvoir automatiser les actions suivantes :

  • ouverture du .pdf
  • recherche du numéro de téléphone
  • export dans un excel

L’idée est que je puisse ensuite exporter mon excel et l’utiliser via vms online pour laisser des messages téléphonique en masse :slight_smile:

Si quelqu’un a un script ou une idée de comment procéder je suis preneur !

J’ai essayé via iMacros sans succès…

Bonne journée & merci

1 « J'aime »

Hello,

Il faut utiliser une solution de parsing en script, de type pdftohtml (sous linux), cela génère un XML qu’on peut ensuite parcourir à la recherche de numéro de tel en appliquant des regexes.

1 « J'aime »

Une autre solution (en mode graphique avec 2 logiciels) c’est de les assembler avec PDFSAM et ensuite utiliser Tabula pour créer ton Excel.

1 « J'aime »

Merci ! J’essaie de regarder ça dans l’après-midi et je fais un retour :slight_smile:

Hello !

Merci pour les pistes, l’option PDFSAM + Tabula est assez sympa mais malheureusement pas 100% adapté à ce que je recherche, je garde néanmoins, j’en aurais sûrement besoin un autre jour !

Du coup je vais tester la première solution, j’ai un script qui génère un xml à partir de mes .pdf ; je vais tester en appliquant des regexes pour voir ce que cela me sort

Merci en tout cas !