Scrapper l'annuaire des mairies


#1

Bonjour à tous,
Je suis une dev en devenir (du moins, j’espère) mais pour le moment j’ai un peu de mal avec les méthodes de scrapping avec la gem watir de ruby… J’aimerais scrapper l’intégralité des adresses email - adresses physiques et nom des villes de toute la France tout en créant un csv et je pars de presque 0.
Je sais scrapper des informations simples (comme celles d’une recherche Google) mais sur https://www.annuaire-des-mairies.com il y a beaucoup de catégories et j’avoue m’y perdre.
Y aurait-il des âmes charitables pour m’aider ?

Je vous remercie par avance,

Marie


#2

Hello marie,

Utilise la recherche du forum avec “mairie”


#3

Hello Marie,

Ici la difficulté principale que tu sembles rencontrer c’est le fait de devoir naviguer au travers des différentes pages de “catégorie” du site, pour atteindre chacune des pages des villes, c’est bien ça?

Tout est question d’algorithme ici. A partir de la home page, tu dois:
1 - Récupérer tous les liens de pages des départements, dont voici le sélecteur XPath: //section[@class='well section-border']/div[@class='container']
2 - A partir de cette liste de lien, faire une boucle, ouvrir chaque page de département
3 - Pour chaque page de département, récupérer la liste des liens de pages des villes, dont voici le XPath: //section[@class='well well-inset-2']/div[@class='container']//td/a
4 - A partir de cette liste de liens de pages des villes d’un département, faire une boucle, ouvrir chacune des pages de ces villes
5 - Extraire les informations propres à la ville en question


#4

Merci beaucoup pour cette réponse ! Je vais essayer tout ça et je vous tient au courant !


#5

Bonjour Marie

Ta demande est un problème d’usage des listings ou de repérage parmi les différentes sortes de collectivités locales ?
Cordialement
Pierre


#6

Sinon, tu pourras récupérer toutes les mairies et autres via https://www.service-public.fr/partenaires/comarquage/documentation


#7

J’ai récemment fait un scrapping équivalent sur un site analogue (sans citer de nom ^^), tu n’aura pas de difficultés particulières mais pense a utiliser une rotation dans tes proxies.


#9

Whaoo !! pas très à jours ce site

Bonjour les bounces !!


#10

J’adore scraper mais quand on peut choper le csv tout fait sur le .gouv pourquoi faire plus compliqué ? :wink:


#11

C’est très probablement parce que certaines des informations dont Marie avait besoin n’existe pas dans ce csv …


#12

Salut Marie,

envoi un msg privée si tu veux qlqs tips sur le scrapping avec ruby :slight_smile:


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr