Bonjour à tous,
Je suis une dev en devenir (du moins, j’espère) mais pour le moment j’ai un peu de mal avec les méthodes de scrapping avec la gem watir de ruby… J’aimerais scrapper l’intégralité des adresses email - adresses physiques et nom des villes de toute la France tout en créant un csv et je pars de presque 0.
Je sais scrapper des informations simples (comme celles d’une recherche Google) mais sur https://www.annuaire-des-mairies.com il y a beaucoup de catégories et j’avoue m’y perdre.
Y aurait-il des âmes charitables pour m’aider ?
Ici la difficulté principale que tu sembles rencontrer c’est le fait de devoir naviguer au travers des différentes pages de « catégorie » du site, pour atteindre chacune des pages des villes, c’est bien ça?
Tout est question d’algorithme ici. A partir de la home page, tu dois:
1 - Récupérer tous les liens de pages des départements, dont voici le sélecteur XPath: //section[@class='well section-border']/div[@class='container']
2 - A partir de cette liste de lien, faire une boucle, ouvrir chaque page de département
3 - Pour chaque page de département, récupérer la liste des liens de pages des villes, dont voici le XPath: //section[@class='well well-inset-2']/div[@class='container']//td/a
4 - A partir de cette liste de liens de pages des villes d’un département, faire une boucle, ouvrir chacune des pages de ces villes
5 - Extraire les informations propres à la ville en question
J’ai récemment fait un scrapping équivalent sur un site analogue (sans citer de nom ^^), tu n’aura pas de difficultés particulières mais pense a utiliser une rotation dans tes proxies.
J’ai regardé sur le .gouv, mais maintenant il me semble que les fichiers .CSV des infos des mairies de France soit payants. Je me trompe ou ça a changé depuis ?