Scraping Pages jaunes avec Siren

Bonjour les amis,
Une solution pour scrapper sur PJ tous les nom + Code Postal + Siren + date de début par secteur donné ?
On a était bloqué avec le Captcha
Merci

Salut,

vous pouvez passer par un système comme 2captcha pour débloquer la situation avec les captchas, ou changer d’ip régulièrement pour éviter de trigger le captcha

1 « J'aime »

Hello @Raph55,

Nous avions contourné le problème pour des petits besoins (5000 lignes) avec le réseau 4G d’un téléphone en partage de connexion (avec déconnexion et reconnexion pour changer d’IP toutes les 5mins) :

Je m’interroge donc sur l’efficacité des « proxy 4G » qui passent peut-être mieux « sous les radars », si quelqu’un en sait plus ? :pray:

Hello @Raph55, il me semble que https://www.captaindata.co/ te permet de scraper avec les proxies et les pass capcha qui vont bien :slight_smile:

En effet, si tu veux passer à travers les sécurités habituelles, tu peux passer par des proxy résidentiels tournant et via un navigateur (le tient ou par un script qui utiliserait chrome en headless mode par ex). Ils passent généralement par le navigateur d’utilisateurs lambda du monde entier (ou même par leurs mobiles, ce qui reviendrait à ton exemple). Il y a souvent la possibilité de choisir la position géographique souhaitée également.

Regarde de ce coté là :slight_smile:

1 « J'aime »

Merci @mnmlstrntreprnr de la réponse :grinning_face_with_smiling_eyes:,

Je m’interrogeais plutôt sur la détection lié à l’IP d’une connexion 4G car le scrap a eu lieu sur un PC qui faisait tourner un script Chrome en headless en bénéficiant de la connexion 4G d’un de nos téléphones avec connexion/reconnexion (de la data du tel) toutes les 5 mins afin de changer d’IP, ce qui nous a permis de ne plus avoir de problème.

1 « J'aime »

Merci à tous :slight_smile:

1 « J'aime »