[Résolu] Extraire des numéros de téléphone depuis des fichiers Word

arthurn · Juin 12, 2019, 10:00

Hello les gh,

J’ai 600+ documents Word et souhaiterai extraire les numéros de téléphone qu’il y a dans chacun d’eux.

Une idée pour automatiser tout ça ?

++

ScrapingExpert · Juin 12, 2019, 12:37

Hello,

Il doit exister bon nombre de parsers de documents Word, en Python, Java ou même PHP.

A titre d’exemple j’utilise Apache SOLR afin d’indexer automatiquement le contenu de documents tels que .doc, .docx, .pdf, etc, ce qui permet ensuite de faire des recherches en se basant sur des patterns spécifiques (via regex), et donc d’identifier de potentiels numéros de téléphone.

Sinon, tu peux toujours songer à automatiser l’utilisation de services web tels que:
http://www.convertcsv.com/phone-extractor.htm

arthurn · Juin 12, 2019, 1:45

Hello,

Merci pour ta réponse @ScrapingExpert.

Finalement j’ai trouvé une solution que voici.

J’ai utilisé une commande terminal pour convertir tous les fichiers .docx en .txt :

textutil -convert txt /path/to/DOCX/files/*.docx

Puis ai utilisé Automator pour les combiner en un seul fichier .txt et toujours avec Automator j’ai extrait les données contenant « 06 », « 07 », « 336 », « +336 » etc.

++

ScrapingExpert · Juin 12, 2019, 3:46

Thanks ! Super simple et bien plus efficace