Hello @Galette
-
Checker le robots.txt : https://www.tripadvisor.fr/robots.txt
-
Y trouver le sitemap général : https://www.tripadvisor.fr/sitemap/2/fr/sitemap_fr_index.xml
-
Dans ce sitemap, récupérer les 67 sous sitemaps : « fr-restaurant_review ».
-
DL + décompresser les gz.
-
Faire une recherche globale aux 67 fichiers : « Paris_Ile_de_France.html »
-
Cleaner + récupérer URLs.
-
le résultat final : Paris - Google Spreadsheets (18K restaurants sur Paris)
-
Mic drop
Pour aller plus loin :