Je ne sais pas sur que le sitemap inclut toutes les urls du site.
Personnellement je ferai une double boucle sur : les 1000 communes en France et les activités
Je pense qu’avec cette méthode, on pourra récupérer 80% de la base de donnée
c’est la règle du site, mais j’ai une idée d’acommplir cette tâche rapidement automatiquement en suivant la règle du site.
Et il me faut fortement utiliser un outil de web scraping et j’utilise Octoparse
préparer deux listes, la première contient tous les métiers et le deuxième comprend toutes les villes françaises. et je suis sûr que cela prend peu de temps pour préparer ces deux listes.
Octoparse permet à ses utilisateurs de créer des boucles de texte, par conséquent, cet outil va automatiquement entrer l’élément dans les listes l’un après l’autre et faire la recherche, et puis, c’est le simple procesus d’exécuter le web scraping
En général les sitemap sont assez complet et mis à jour puisque le site en question veut être indexé sur les moteurs de rechercher et tirer profit du SEO. Pourquoi pense-tu qu’il n’est pas à jour ?