Protection des pages jaunes


#1

Hello les GH

J’utilise https://www.apify.com/ et en suis très satisfait pour un scraper que j’ai réalisé qui scanne les entrées du bodacc mais impossible de faire fonctionner un autre scraper que j’ai codé pour extraire les résultats des pages jaunes. Le site doit détecter le comportement du browser headless (j’envoie pourtant des en-têtes de browser réel) et bloque le scrap.
Quelqu’un a-t’il contourné les protections des PJ ?


#2

Ca ne va pas vraiment répondre à ta question mais si jamais tu ne trouves pas de méthodes pour scrapper les PJ avec apify, sache qu’il existe Annucapt.
On a beaucoup utiliser l’outil pour aspirer les coordonnées de commerçants et restaurateurs.
Malheureusement, depuis peu, les pages jaunes ne diffusent plus les adresses e-mail sur leur site.


#3

Merci pour ta réponse. En fait, l’adresse email ne m’intéresse pas, le rendement des campagnes par email n’est pas au rendez-vous alors que j’ai un ROI beaucoup plus intéressant avec des techniques mixtes. Les pages jaunes m’intéressent pour leur segmentation et l’analyse de l’environnement concurrentiel des prospects. Je suis surtout intéressé par des scénarii de chaînage de scraping et d’actions pour arriver à contacter les décideurs sur LI ou FB messenger.
Pour le moment c’est la brique PJ > société.com qui m’intéresse


#4

Bonjour Dens,

Merci pour votre message. Vous pourrez trouver plus d’information et une reponse a votre question sur le lien suivant: https://forum.apify.com/t/how-to-bypass-sites-that-block-crawlers-or-bots/205 (premier commentaire).

N’hesitez pas a nous recontacter si vous avez d’autres questions.

Bien a vous,
Eyal

eyal@apify.com


#5

Thanks Eyal


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr