[HELP] Scraping Pages Jaunes

Bonjour,

J’espère que vous allez bien.

Pour vous donner un peu de contexte, le scraping des Pages Jaunes peut s’avérer complexe. Cela implique généralement de scraper chaque département un par un et de décoder les liens en base64, ce qui demande du temps et de l’expertise.

Après plusieurs recherches, j’ai réussi à identifier un lien permettant de récupérer les données pour toute la France en une seule recherche.

Cependant, un problème persiste :

  • Pour des secteurs d’activité avec un nombre modéré d’établissements, comme les agences marketing (environ 4 600 résultats), le scraping fonctionne bien, car il y a seulement 260 pages à traiter.
  • Pour des secteurs beaucoup plus vastes, comme les boulangeries (environ 26 000 résultats), le processus se bloque à 500 pages, alors qu’il devrait logiquement couvrir 1 300 pages pour afficher l’ensemble des établissements (20 par page). Résultat : je ne peux extraire qu’environ 10 000 boulangeries, ce qui est incomplet.

Malgré mes compétences en scraping, réseau et web, je n’ai pas encore trouvé de solution à ce problème.

Je suis donc à la recherche de personnes sérieuses, compétentes dans ces domaines, avec qui je pourrais collaborer pour débloquer cette situation. Je suis également prêt à partager ce lien avec des partenaires potentiels qui pourraient m’aider à résoudre ce défi technique.

N’hésitez pas à me contacter si vous êtes intéressé.

Cordialement,
Sullyvan Gousset

Je peux essayer de mon coté. Si je comprends tu souhaites scraper les 1300 pages de boulangeries et ca bloque à 500, c’est ca ?

Je te confirme que passer par tous les départements, c’est la bonne méthode, il y a juste à boucler dessus. Tu ajoutes dans tes liens le code du département et tu peux réutiliser ton algo puisque les pages ne changent pas

Effectivement, la méthode consistant à boucler sur les départements à partir du lien fonctionne bien. Cependant, dans ma démarche d’expertise en scraping, je m’efforce d’analyser chaque étape en détail et d’explorer de nouvelles approches.

Mon principal objectif est de trouver des moyens de contourner les mécanismes de sécurité mis en place par les Pages Jaunes. Par exemple, pour la limitation par département, j’ai réussi à identifier une alternative intéressante, ce qui me pousse à aller encore plus loin dans mes recherches et mes tests.

C’est en expérimentant ces solutions que je vise à perfectionner mes compétences.

Cordialement,
Sullyvan Gousset

Hello! Je suppose que tu scrapes juste les listings, cad tu n’ouvres pas chaque page pro pour la scraper mais tu scrapes les info existantes dans ces listing. C’est bien ça?

Hello Azzouz,

Ca va dépendre de la data nécessaire, mais concrètement mon problème se pose belle et bien sur le scrap du listing car la pagination se bloque a 500

Oui, je comprends, j’étais juste curieux.

De mon côté, pour résoudre ce problème (blocage à 500), j’ai analysé leur plateforme en détail et j’ai pu identifier un moyen de définir un page size de 30 éléments par page (au lieu de seulement 20). Cela réduit énormément le nombre total de pages à scraper. Par exemple, pour 26 000 éléments, avec un page size de 20, cela représente 1 300 pages, mais avec 30, on descend à environ 867 pages.

En plus de cela, dans les cas où il y aurait encore plus de 500 pages même avec cette manipulation du page size, j’ajoute un ou plusieurs filtres (que j’ai également identifiés) pour scinder les résultats. Par exemple, en appliquant des filtres comme « note des avis 3- / 3+ ».

J’ai tenté de retrouver les astuces que tu m’as données, mais je ne parviens pas à localiser l’argument ‹ page size ›. J’ai essayé plusieurs variantes de nom, épluché les fichiers JS, mais sans succès. Je suis curieux de savoir comment tu as découvert cette astuce !