Protection des pages jaunes

Hello les GH

J’utilise https://www.apify.com/ et en suis très satisfait pour un scraper que j’ai réalisé qui scanne les entrées du bodacc mais impossible de faire fonctionner un autre scraper que j’ai codé pour extraire les résultats des pages jaunes. Le site doit détecter le comportement du browser headless (j’envoie pourtant des en-têtes de browser réel) et bloque le scrap.
Quelqu’un a-t’il contourné les protections des PJ ?

Ca ne va pas vraiment répondre à ta question mais si jamais tu ne trouves pas de méthodes pour scrapper les PJ avec apify, sache qu’il existe Annucapt.
On a beaucoup utiliser l’outil pour aspirer les coordonnées de commerçants et restaurateurs.
Malheureusement, depuis peu, les pages jaunes ne diffusent plus les adresses e-mail sur leur site.

Merci pour ta réponse. En fait, l’adresse email ne m’intéresse pas, le rendement des campagnes par email n’est pas au rendez-vous alors que j’ai un ROI beaucoup plus intéressant avec des techniques mixtes. Les pages jaunes m’intéressent pour leur segmentation et l’analyse de l’environnement concurrentiel des prospects. Je suis surtout intéressé par des scénarii de chaînage de scraping et d’actions pour arriver à contacter les décideurs sur LI ou FB messenger.
Pour le moment c’est la brique PJ > société.com qui m’intéresse

Bonjour Dens,

Merci pour votre message. Vous pourrez trouver plus d’information et une reponse a votre question sur le lien suivant: https://forum.apify.com/t/how-to-bypass-sites-that-block-crawlers-or-bots/205 (premier commentaire).

N’hesitez pas a nous recontacter si vous avez d’autres questions.

Bien a vous,
Eyal

eyal@apify.com

1 J'aime

Thanks Eyal

Bonjour,

Ce lien est mort, quelqu’un a un lien similaire ?

Des outils pour extraire les données de PJ :

  • Yellow Leads Extractor fonctionne plutôt bien, possibilité d’ajouter un rotate IP, si tu veux vider le cache de l’outil il faut vider le cache d’Internet Explorer.
    https://www.ypspider.net/fr/

  • Il y a aussi iqualif (mentionné par un membre de la team GH dans un autre post) avec une possibilité de trial mais moins stable quand on l’a testé, cependant il y a la data de PJ et autres annuaires (et l’outil récupère le SIREN/SIRET).
    https://www.iqualif.com/

En espérant que ça puisse servir :crossed_fingers:
Yesouicom

1 J'aime

Merci pour ces tuyaux!

1 J'aime

Avec plaisir :smile:
D’ailleurs si tu as des petits besoins, on avait utilisé le réseau 4G d’un téléphone (pour bypass la limitation IP) où l’on avait MacroDroid pour switch ON puis OFF la data en automatique "à l’aide de clics simulés " (sinon il faut root le téléphone), ça a bien fonctionné.

Yesouicom

1 J'aime