Scraper l'annuaire des mairies

Bonjour à tous,
Je suis une dev en devenir (du moins, j’espère) mais pour le moment j’ai un peu de mal avec les méthodes de scrapping avec la gem watir de ruby… J’aimerais scrapper l’intégralité des adresses email - adresses physiques et nom des villes de toute la France tout en créant un csv et je pars de presque 0.
Je sais scrapper des informations simples (comme celles d’une recherche Google) mais sur https://www.annuaire-des-mairies.com il y a beaucoup de catégories et j’avoue m’y perdre.
Y aurait-il des âmes charitables pour m’aider ?

Je vous remercie par avance,

Marie

Hello marie,

Utilise la recherche du forum avec « mairie »

1 « J'aime »

Hello Marie,

Ici la difficulté principale que tu sembles rencontrer c’est le fait de devoir naviguer au travers des différentes pages de « catégorie » du site, pour atteindre chacune des pages des villes, c’est bien ça?

Tout est question d’algorithme ici. A partir de la home page, tu dois:
1 - Récupérer tous les liens de pages des départements, dont voici le sélecteur XPath: //section[@class='well section-border']/div[@class='container']
2 - A partir de cette liste de lien, faire une boucle, ouvrir chaque page de département
3 - Pour chaque page de département, récupérer la liste des liens de pages des villes, dont voici le XPath: //section[@class='well well-inset-2']/div[@class='container']//td/a
4 - A partir de cette liste de liens de pages des villes d’un département, faire une boucle, ouvrir chacune des pages de ces villes
5 - Extraire les informations propres à la ville en question

3 « J'aime »

Merci beaucoup pour cette réponse ! Je vais essayer tout ça et je vous tient au courant !

1 « J'aime »

Bonjour Marie

Ta demande est un problème d’usage des listings ou de repérage parmi les différentes sortes de collectivités locales ?
Cordialement
Pierre

Sinon, tu pourras récupérer toutes les mairies et autres via https://www.service-public.fr/partenaires/comarquage/documentation

J’ai récemment fait un scrapping équivalent sur un site analogue (sans citer de nom ^^), tu n’aura pas de difficultés particulières mais pense a utiliser une rotation dans tes proxies.

Whaoo !! pas très à jours ce site

Bonjour les bounces !!

J’adore scraper mais quand on peut choper le csv tout fait sur le .gouv pourquoi faire plus compliqué ? :wink:

2 « J'aime »

C’est très probablement parce que certaines des informations dont Marie avait besoin n’existe pas dans ce csv …

1 « J'aime »

Salut Marie,

envoi un msg privée si tu veux qlqs tips sur le scrapping avec ruby :slight_smile:

Hello,

J’ai regardé sur le .gouv, mais maintenant il me semble que les fichiers .CSV des infos des mairies de France soit payants. Je me trompe ou ça a changé depuis ?

Merci !

EDIT : j’ai trouvé enfait sur ce lien : Service-public.fr - Annuaire de l’administration - Base de données locales - data.gouv.fr dans la partie ‹ Ressources communautaires ›.

Attention du coup, parce que ce site là : https://www.annuaire-mairie.fr/ rend la base de donnée payante…

1 « J'aime »

Hey,

Je m’étais amusé a scrapper les infos sur les mairies, il y a quelques temps.
Si ca interesse toujours, je dois pouvoir retrouver mon fichier.

Hello @benfromhere ! Désolé du délai de réponse, mais oui, je suis toujours intéressé :slight_smile:

Transformer un fichier .Json en CSV fichier dans le thread :wink:

1 « J'aime »

Avec octoparse assez simple, j’ai essayé de mon côté c’est easy