Scraping leboncoin, qu'est-ce qui marche en 2019 avoir leur solution anti-bot?

youyesyou · Octobre 14, 2019, 8:28

Hello,
Le sujet a déjà été évoqué, mais ça évolue assez vite.
Quelles solutions fonctionnent en oct 2019 pour (gentillement) scraper juste quelques pages de résultats leboncoin? Effectivement leur solution AI Data Dome a l’air de pas mal fonctionner

J’ai testé ça en Python avec des headers copiés/collés de mon vrai navigateur, mais ça marche pas:

headers = """Host: www.leboncoin.fr
Connection: keep-alive
User-Agent: ...
Accept: ...
Accept-Encoding: gzip, deflate, br
Accept-Language: en-US,en;q=0.9,fr;q=0.8"""

headers = dict(line.split(': ', 1) for line in headers.split('\n'))
s = requests.Session()
res = s.get("https://www.leboncoin.fr/recherche/?text=mac&locations=", headers=headers)

ScrapingExpert · Octobre 14, 2019, 8:28

As-tu testé le headless browser?

youyesyou · Octobre 14, 2019, 9:16

Je suis en train à l’heure où nous écrivons

Kev1 · Octobre 14, 2019, 11:25

Hello @youyesyou pour moi avec zenno ca fonctionne parfaitement.

youyesyou · Octobre 14, 2019, 12:11

Merci du feedback! Tu peux détailler ton worfklow avec quelques bouts de code? (python welcome!) Ca utilise selenium / chromedriver?

Kev1 · Octobre 14, 2019, 12:50

@youyesyou j’utilise zennoposter ce n’est pas un bot créer en python comme scrapy mais plutôt un émulateur de browser qui te fait une simulation d’un client qui visite le site à scraper et c’est quasi indétectable.

Tu peux :

Changer les ip à chaque visite
changer de browser (user agent)
changer de tes entêtes exemple tu peux emuler un linux, win 10 etc
Changer de géolocalisation
Simulation frappe clavier
Simulation scroll page
Simulation souris

enfin en mixant le tout t’arrive à bypass quasi la totalité des anti bot.

Kev1 · Octobre 14, 2019, 8:47

Salut @atef on peu en discuter en message privé si tu veux

XavierA · Octobre 16, 2019, 1:01

@youyesyou tu as essayé avec Selenium + ChromeDriver finalement? Ca fonctionne? J’ai regardé Zennoposter mais je n’ai pas l’impression qu’il y ai une API ouverte qui permette de le piloter depuis un programme maitre. L’interface UI a l’air bien foutue mais c’est toujours un peu limitant.

ScrapingExpert · Octobre 17, 2019, 6:53

Go Node.js + Puppeteer, tu pourras piloter un full browser Chrome en headless, depuis un script master en Node

Androsyn · Octobre 17, 2019, 7:34

C’est vrai qu’un des point faible de zennoposter c’est qu’il ne propose pas d’api par contre, avec la nouvelle version ( certes en beta mais totalement fonctionnel) et un bon réglage tu bypass datadom sans aucun problème

Jessipa · Octobre 17, 2019, 4:15

Bonsoir, merci pour ta réponse.

Malheureusement rien qu’avec ce petit script :


const puppeteer = require("puppeteer");

(async () => {
  const browser = await puppeteer.launch({ headless: true });
  const page = await browser.newPage();
  await page.goto("https://www.leboncoin.fr/annonces/offres/alsace/");
  await page.screenshot({ path: "example.png" });
  await browser.close();
})();

Leboncoin me bloque l’accès et me demande une confirmation (afin de s’assurer que je ne sois pas un robot). Je très débutant dans le domaine, pouvez-vous m’aider ?

Merci !

ScrapingExpert · Octobre 17, 2019, 4:43

Hey, compliqué à ce stade de t’aider, il faudrait te donner tout le code permettant de supprimer l’empreinte numérique du navigateur (cette fameuse empreinte qui permet de le repérer).

N’oublions pas que les teams anti bots de boites comme LBC traînent par ici, et trouve des parades en s’inspirant des contre mesures qu’on pourrait partager en clair…

Kev1 · Octobre 17, 2019, 6:42

De toute façon les dernières générations de bots sont tellement calqués sur un humain qu’il vont finir pas ban des vrais Users

Jessipa · Octobre 18, 2019, 6:46

D’accord je vois, merci ! Je vais approfondir tout cela et essayer de m’en sortir.

arnaud44 · Février 17, 2020, 9:25

Hello Kev1,

Je tente depuis plusieurs jours d’utiliser Zenno pour réaliser du scrap cependant j’ai plusieurs points de blocage :

Je n’arrive pas à mettre un proxy, j’ai fait un test bateau avec un proxy en dur et avec un go to monip.org mais ça ne m’applique rien.
Je n’arrive pas à compter le nombre de valeur dans une liste
Je n’arrive pas à checker les proxy avec ProxyChecker

Je te remercie par avance, je lance un projet (après 2 années à 4 à travailler dessus) et j’aurais énormément besoin d’aide, un grand merci d’avance
Arnaud

Kev1 · Février 17, 2020, 1:47

Bonjour @arnaud44

Concernant les proxy, je ne les utilises pas je préfère utiliser un vpn donc je ne pourrai pas t’aider sur ce point.
Quand tu dit je n’arrive pas à compter le nombre de valeur dans une liste, tu veux récupérer les valeurs d’une ligne dans un fichier et le mettre dans une variable? passe en MP si tu veux

Lolo13 · Février 18, 2020, 7:52

Perso le scrapping LBC demande uniquement un bon rotating ip et une tache récurrente rien de bien compliqué.

karni · Février 18, 2020, 5:40

Je te déconseille d’utiliser des proxies publics dans ce cas là (et dans la plupart des autres cas aussi en fait).Les problèmes des proxies publics sont nombreux : lenteurs, bans, anonymat aléatoire, IP exotiques…

Pour activer des proxies prives ou semi prives ou autres pour les rotations: « list processing » avec ta liste de proxies ->« get line random » puis browser settings → « set proxy » avec ton ip de proxy.Je te conseille de whitelister ton ip de vps par simplicité.
Pour compter le nombre de lignes : « list processing » ->« get lines count ».
Enfin pour proxy checker , je te conseille de t’en passer (cf conseil plus haut )

Lolo13 · Février 19, 2020, 7:39

Après il faut mettre un petit budget pour avoir un proxy / proxy rotating de qualité.
Le gratuit n’est jamais toujours bon et il faut savoir donner pour recevoir

Rayane_Hcn · Février 19, 2020, 4:59

Quid du RGPD par rapport au scraping sur leboncoin?