Scraping annuaire artisans

Hello à tous !

Est-ce que vous auriez une astuce pour scraper l’annuaire des artisans de ce site : https://www.artisans-du-batiment.com ?

Je n’arrive pas à scraper sans sélectionner de métier et de localisation, mais cela est trop sélectif, je souhaiterais tout scraper…

Merci par avance,

Il y a une sitemap ici avec toutes les coordonnées : https://www.artisans-du-batiment.com/sitemap_index.xml

Un petit script Python et c’est dans la poche :wink:

Utilise un outil de no code pour scraper et sinon prends quelqu’un pour le faire pour toi sur Upwork ce sera plus rapide. :slight_smile:

1 « J'aime »

Je ne sais pas sur que le sitemap inclut toutes les urls du site.

Personnellement je ferai une double boucle sur : les 1000 communes en France et les activités
Je pense qu’avec cette méthode, on pourra récupérer 80% de la base de donnée

c’est la règle du site, mais j’ai une idée d’acommplir cette tâche rapidement automatiquement en suivant la règle du site.
Et il me faut fortement utiliser un outil de web scraping et j’utilise Octoparse
préparer deux listes, la première contient tous les métiers et le deuxième comprend toutes les villes françaises. et je suis sûr que cela prend peu de temps pour préparer ces deux listes.
Octoparse permet à ses utilisateurs de créer des boucles de texte, par conséquent, cet outil va automatiquement entrer l’élément dans les listes l’un après l’autre et faire la recherche, et puis, c’est le simple procesus d’exécuter le web scraping

En général les sitemap sont assez complet et mis à jour puisque le site en question veut être indexé sur les moteurs de rechercher et tirer profit du SEO. Pourquoi pense-tu qu’il n’est pas à jour ?

Il suffit… De le vérifier.
Le sitemap ne comporte que quelques résultats partiels.

1 « J'aime »