[Résolu] Extraire des numéros de téléphone depuis des fichiers Word

Hello les gh,

J’ai 600+ documents Word et souhaiterai extraire les numéros de téléphone qu’il y a dans chacun d’eux.

Une idée pour automatiser tout ça ?

++

Hello,

Il doit exister bon nombre de parsers de documents Word, en Python, Java ou même PHP.

A titre d’exemple j’utilise Apache SOLR afin d’indexer automatiquement le contenu de documents tels que .doc, .docx, .pdf, etc, ce qui permet ensuite de faire des recherches en se basant sur des patterns spécifiques (via regex), et donc d’identifier de potentiels numéros de téléphone.

Sinon, tu peux toujours songer à automatiser l’utilisation de services web tels que:
http://www.convertcsv.com/phone-extractor.htm

Hello,

Merci pour ta réponse @ScrapingExpert.

Finalement j’ai trouvé une solution que voici.

J’ai utilisé une commande terminal pour convertir tous les fichiers .docx en .txt :

textutil -convert txt /path/to/DOCX/files/*.docx

Puis ai utilisé Automator pour les combiner en un seul fichier .txt et toujours avec Automator j’ai extrait les données contenant “06”, “07”, “336”, “+336” etc.

++

2 Likes

Thanks ! Super simple et bien plus efficace :slight_smile: