Scraper l'annuaire des mairies

mariepqt · Décembre 1, 2017, 11:30

Bonjour à tous,
Je suis une dev en devenir (du moins, j’espère) mais pour le moment j’ai un peu de mal avec les méthodes de scrapping avec la gem watir de ruby… J’aimerais scrapper l’intégralité des adresses email - adresses physiques et nom des villes de toute la France tout en créant un csv et je pars de presque 0.
Je sais scrapper des informations simples (comme celles d’une recherche Google) mais sur https://www.annuaire-des-mairies.com il y a beaucoup de catégories et j’avoue m’y perdre.
Y aurait-il des âmes charitables pour m’aider ?

Je vous remercie par avance,

Marie

Camille · Décembre 1, 2017, 12:05

Hello marie,

Utilise la recherche du forum avec « mairie »

ScrapingExpert · Décembre 1, 2017, 1:46

Hello Marie,

Ici la difficulté principale que tu sembles rencontrer c’est le fait de devoir naviguer au travers des différentes pages de « catégorie » du site, pour atteindre chacune des pages des villes, c’est bien ça?

Tout est question d’algorithme ici. A partir de la home page, tu dois:
1 - Récupérer tous les liens de pages des départements, dont voici le sélecteur XPath: //section[@class='well section-border']/div[@class='container']
2 - A partir de cette liste de lien, faire une boucle, ouvrir chaque page de département
3 - Pour chaque page de département, récupérer la liste des liens de pages des villes, dont voici le XPath: //section[@class='well well-inset-2']/div[@class='container']//td/a
4 - A partir de cette liste de liens de pages des villes d’un département, faire une boucle, ouvrir chacune des pages de ces villes
5 - Extraire les informations propres à la ville en question

mariepqt · Décembre 1, 2017, 9:17

Merci beaucoup pour cette réponse ! Je vais essayer tout ça et je vous tient au courant !

bernardinho · Décembre 6, 2017, 1:38

Bonjour Marie

Ta demande est un problème d’usage des listings ou de repérage parmi les différentes sortes de collectivités locales ?
Cordialement
Pierre

Bazouni · Décembre 8, 2017, 11:22

Sinon, tu pourras récupérer toutes les mairies et autres via https://www.service-public.fr/partenaires/comarquage/documentation

BatLZ · Décembre 10, 2017, 8:30

J’ai récemment fait un scrapping équivalent sur un site analogue (sans citer de nom ^^), tu n’aura pas de difficultés particulières mais pense a utiliser une rotation dans tes proxies.

davadmin · Décembre 18, 2017, 4:13

Whaoo !! pas très à jours ce site

Bonjour les bounces !!

florent84 · Décembre 19, 2017, 8:25

J’adore scraper mais quand on peut choper le csv tout fait sur le .gouv pourquoi faire plus compliqué ?

ScrapingExpert · Décembre 20, 2017, 8:27

C’est très probablement parce que certaines des informations dont Marie avait besoin n’existe pas dans ce csv …

conquering_lion · Décembre 20, 2017, 9:39

Salut Marie,

envoi un msg privée si tu veux qlqs tips sur le scrapping avec ruby

Paul_SD · Janvier 13, 2022, 4:45

Hello,

J’ai regardé sur le .gouv, mais maintenant il me semble que les fichiers .CSV des infos des mairies de France soit payants. Je me trompe ou ça a changé depuis ?

Merci !

EDIT : j’ai trouvé enfait sur ce lien : Service-public.fr - Annuaire de l’administration - Base de données locales - data.gouv.fr dans la partie ‹ Ressources communautaires ›.

Attention du coup, parce que ce site là : https://www.annuaire-mairie.fr/ rend la base de donnée payante…

benfromhere · Janvier 17, 2022, 8:34

Hey,

Je m’étais amusé a scrapper les infos sur les mairies, il y a quelques temps.
Si ca interesse toujours, je dois pouvoir retrouver mon fichier.

Paul_SD · Août 28, 2023, 3:24

Hello @benfromhere ! Désolé du délai de réponse, mais oui, je suis toujours intéressé

incubateur_BdM · Août 30, 2023, 1:17

Transformer un fichier .Json en CSV fichier dans le thread

kevinclt · Août 30, 2023, 1:44

Avec octoparse assez simple, j’ai essayé de mon côté c’est easy