Protection des pages jaunes

dens · Janvier 25, 2018, 9:48

Hello les GH

J’utilise https://www.apify.com/ et en suis très satisfait pour un scraper que j’ai réalisé qui scanne les entrées du bodacc mais impossible de faire fonctionner un autre scraper que j’ai codé pour extraire les résultats des pages jaunes. Le site doit détecter le comportement du browser headless (j’envoie pourtant des en-têtes de browser réel) et bloque le scrap.
Quelqu’un a-t’il contourné les protections des PJ ?

gguerder34 · Janvier 25, 2018, 1:57

Ca ne va pas vraiment répondre à ta question mais si jamais tu ne trouves pas de méthodes pour scrapper les PJ avec apify, sache qu’il existe Annucapt.
On a beaucoup utiliser l’outil pour aspirer les coordonnées de commerçants et restaurateurs.
Malheureusement, depuis peu, les pages jaunes ne diffusent plus les adresses e-mail sur leur site.

dens · Janvier 25, 2018, 2:42

Merci pour ta réponse. En fait, l’adresse email ne m’intéresse pas, le rendement des campagnes par email n’est pas au rendez-vous alors que j’ai un ROI beaucoup plus intéressant avec des techniques mixtes. Les pages jaunes m’intéressent pour leur segmentation et l’analyse de l’environnement concurrentiel des prospects. Je suis surtout intéressé par des scénarii de chaînage de scraping et d’actions pour arriver à contacter les décideurs sur LI ou FB messenger.
Pour le moment c’est la brique PJ > société.com qui m’intéresse

apify · Janvier 25, 2018, 9:34

Bonjour Dens,

Merci pour votre message. Vous pourrez trouver plus d’information et une reponse a votre question sur le lien suivant: https://forum.apify.com/t/how-to-bypass-sites-that-block-crawlers-or-bots/205 (premier commentaire).

N’hesitez pas a nous recontacter si vous avez d’autres questions.

Bien a vous,
Eyal

[email protected]

dens · Janvier 26, 2018, 8:22

Thanks Eyal

NicoB · Avril 18, 2020, 6:02

Bonjour,

Ce lien est mort, quelqu’un a un lien similaire ?

Kevin-Zimmermann · Avril 20, 2020, 12:19

Des outils pour extraire les données de PJ :

Yellow Leads Extractor fonctionne plutôt bien, possibilité d’ajouter un rotate IP, si tu veux vider le cache de l’outil il faut vider le cache d’Internet Explorer.
Yellow Pages Extractor Software (Francais) – Extraire des données, e-mails, téléphones des entreprises, des associations, des entreprises de Pages Jaunes!
Il y a aussi iqualif (mentionné par un membre de la team GH dans un autre post) avec une possibilité de trial mais moins stable quand on l’a testé, cependant il y a la data de PJ et autres annuaires (et l’outil récupère le SIREN/SIRET).
https://www.iqualif.com/

En espérant que ça puisse servir
Yesouicom

dens · Avril 20, 2020, 1:49

Merci pour ces tuyaux!

Kevin-Zimmermann · Avril 20, 2020, 2:25

Avec plaisir
D’ailleurs si tu as des petits besoins, on avait utilisé le réseau 4G d’un téléphone (pour bypass la limitation IP) où l’on avait MacroDroid pour switch ON puis OFF la data en automatique "à l’aide de clics simulés " (sinon il faut root le téléphone), ça a bien fonctionné.

Yesouicom