Scraper des garages

Bonjour !

J’aimerais trouver un moyen de scraper des garages, sur des sites similaire a celui ci :

L’idée serait de sortir une liste de tout les garages

1 « J'aime »

Hello, je cherche un moyen aussi, je suis très intéressé si tu trouves la solution

Pour le moment c’est par département mais ça fait long

C’est déjà ça.

Stp,tu pourrai détailler ta procédure ?

Les données sont renvoyées en JSON. Vous pouvez directement interroger cette API.

Pour avoir le maximum de résultats il faut générer les coordonnées géographiques de la position dont vous voulez avoir les garages les plus proches et les passer en paramètre de la requête.

Vous pouvez par exemple trouver les latitudes et longitudes de toutes les plus grandes villes de France, les mettre en paramètre de l’URL et faire une requête POST à l’API.

Ensuite vous parsez le JSON.

Très simple à faire en Python (en no code je n’en sais rien).

2 « J'aime »

Hello! Le site de citroen (150 garages). CSV dispo ici. :upside_down_face:

En gros je récupéré les infos par département avec instant data scraper mas ça m’oblige a faire chaque département « a la main »

D’accord merci pour ton message

Merci, comment as tu effectué la recherche ? Perso, en idf j’ai 166 garages

En interrogeant les 1000 plus grandes villes françaises et en étendant le rayon, j’ai récupéré un peu moins de 2000 garages et concessionnaires citroën.

Le fichier est disponible ici.

3 « J'aime »

Sur le navigateur Mozilla:

  • tu ouvres la console
  • tu fais ta recherche
  • tu filtres les requêtes par getStoreList
  • tu modifies la requête POST https://www.citroen.fr/_/Layout_Citroen_PointsDeVente/getStoreList
    image
  • tu vas ensuite pouvoir modifier le corps de la requête et renvoyer des valeurs modifiées: lat=48.86&long=2.35&page=2634&version=132&order=4&area=150&ztid=&attribut=40&brandactivity=AC
  • tu augmentes le area sur 999 pour obtenir au maximum de résultats
  • ensuite tu c/c le JSON brut :slight_smile:
2 « J'aime »

merci pour ton aide

Hello @matteoc,

Je plussoie l’approche de l’analyse du flux XHR proposée par @TitanX et @josselin, qui est le premier réflexe à avoir lorsqu’on cherche à scraper, surtout lorsque c’est une carte :+1:

Pour ce cas particulier, j’ai une autre solution: passer par le sitemap via l’url https://reseau.citroen.fr/sitemap :point_down:

Tu récupères tous les liens et filtre ceux contenant /reparateur- qui sont les URLs des garages.

Un coup de scraping avec un plugin gratuit comme webscraper.io et c’est réglé :slight_smile:

3 « J'aime »

Hello les GH,
le sitemap ne fonctione pas :‹ (
j’ai test https://reseau.citroen.fr/sitemap
https://reseau.citroen.fr/sitemap.xml
https://reseau.citroen.fr/sitemap_index.xml
dans le robots.txt il y a rien : ›(

pls help me

1 « J'aime »

Salut, https://clay.com te permet de faire ça très rapidement grâce à leur extension chrome.

N’hésite pas à me contacter si tu as besoin d’aide pour le prendre en main.

Hello @matteoc ,

Tu as Scap.io qui peut te faire ça :wink:

On a fait un article là-dessus sur notre blog => Lien

J’ai été assez surpris, il y a les garages et même les concessionnaires par marque :

2 « J'aime »