Scraping TripAdvisor - Code / Sans code?

Hello @Galette

  1. Checker le robots.txt : https://www.tripadvisor.fr/robots.txt

  2. Y trouver le sitemap général : https://www.tripadvisor.fr/sitemap/2/fr/sitemap_fr_index.xml

  3. Dans ce sitemap, récupérer les 67 sous sitemaps : « fr-restaurant_review ».

  4. DL + décompresser les gz.

  5. Faire une recherche globale aux 67 fichiers : « Paris_Ile_de_France.html »

  6. Cleaner + récupérer URLs.

  7. le résultat final : Paris - Google Spreadsheets (18K restaurants sur Paris)

  8. Mic drop :grin:


Pour aller plus loin :

15 « J'aime »