Scraper lacentrale.fr

rahul · Février 6, 2021, 1:08

Bonjour,

J’essaye de scraper la base d’annonces de lacentrale.fr à partir d’un scripte Python. Je me suis rendu compte, malheureusement, que le site m’envoyait des « fausses » données dès qu’il m’identifie comme bot.

J’ai essayé de contourner le problème en faisant une rotation avec plusieurs headers et une centaine d’adresses IP (partagées) grâce à un VPN, mais le problème revient toujours (pour certaines adresses IP).

J’ai du mal à comprendre comment le site identifier certaines de mes IP avant même que j’ai pu faire plus d’une requête par IP. Avez-vous des conseils / expériences avec lacentrale.fr ? Est-ce qu’utiliser Selenium pourrait régler ce problème ?

boristchangang · Février 6, 2021, 9:11

Tes adresses ip viennent d’où ?

rahul · Février 7, 2021, 12:10

Désolé mon message ne passe pas bizarrement. Je fais une rotation sur environ 500 servers de NordVPN à chaque requête

JeanEude · Février 9, 2021, 12:59

Je ne serais pas étonné de savoir que les IPs de NordVPN soient déjà bien connues et donc blacklistés d’office

rahul · Février 10, 2021, 2:02

Merci. J’ai essayé avec un proxy résidentiel de chez proxyscrape et j’ai le même problème… Quelqu’un a déjà eu un problème similaire ?

mds_z · Février 11, 2021, 4:14

Aucun pb de mon côté

romain-datascrap · Février 12, 2021, 10:12

Tu es sûr qu’ils t’envoient des fausses données ?
Souvent c’est juste que la fonctionnalité de tri n’est pas géniale, et renvoie des résultats triés dans le désordre, ce qui donne l’impression qu’il s’agit de fausses données.

J’ai souvent entendu parler de la légende urbaine du site qui repère ton scraper et t’envoie des fausses données, mais je ne l’ai jamais constaté sur aucun site… et j’en scrape beaucoup.

rahul · Février 12, 2021, 11:32

@romain-datascrap J’avais du mal à y croire mais oui, j’en suis sur : il suffit d’aller sur une page de lacentrale.fr (par exemple https://www.lacentrale.fr/auto-occasion-annonce-66101444034.html), de l’actualiser 5-10 fois et tu verras que le prix, l’année, la première immatriculation et le kilométrage auront changé.
Le ‹ biais › est toujours le même : la voiture ‹ rajeunit › d’une année et le prix augmente de 10-20%. C’es très insidieux car presque impossible à détecter une fois que tu as scrapé le site, si tu ne fais pas attention.

@mds_z si tu as un script fonctionnel et que tu as réussi à éviter ce problème, j’aimerais bien te poser quelques questions em mp ! Je bosse là dessus depuis plus d’un mois et je deviens un peu fou. Petite précision : je suis thésard et c’est pour un papier académique, par pour du marketing.

romain-datascrap · Février 12, 2021, 1:05

@rahul Incroyable j’ai testé avec Tor, j’ai en effet immédiatement une augmentation du prix. Je me demande quand même si c’est une protection anti-scraper ou bien une tentative d’escroquerie aléatoire.

Ça me fait penser à Netflix qui à un moment affichait des prix qui changeaient aléatoirement pour voir combien les gens étaient prêts à mettre. (pas d’escroquerie ici car tu es toujours prélevé du bon prix, même si on t’affiche un prix plus élevé : Netflix affiche de faux tarifs (volontairement trop élevés) en France - Geeko)

Pour ton problème, il faudrait voir si ce sont les IP qui se font détecter, ou bien le fait que tu n’aies pas de browser. Tu peux essayer avec des proxy résidentiels / en utilisant un headless browser.

rahul · Février 12, 2021, 2:26

@romain-datascrap Au départ je pensais à quelque chose dans ce genre (j’ai cru comprendre que les compagnies aériennes étaient suspectées d’augmenter le prix aussi après plusieurs visites), mais j’ai du mal à y croire puisque la date du véhicule change aussi… C’est plutôt une manière de ‹ cacher › l’annonce originale je pense.

J’ai essayé avec des proxy résidentiels partagés (proxyscrape.com). La plupart fonctionnent, mais j’ai toujours quelques annonces qui deviennent ‹ biaisées ›, et pas moyen de les identifier automatiquement… J’ai essayé avec du JS rendering, mais ça ne change rien, je ne pense pas que le problème vienne de là. C’est sûrement une histoire de IP / cookies, mais je n’arrive pas à résoudre le problème

Tieg · Mars 2, 2021, 7:59

Je ne connaissais pas cette technique mais c’est très intéressant dans un contexte concurrentiel plus global. Cela permet un site identifié comme référence dans son domaine d’utiliser ses données de façon détournée pour un meilleur rapport concurrentiel : ses concurrents le scrappent avec des données moins avantageuses et les clients quand ils comparent se retrouve naturellement sur le site de référence, toujours plus intéressant. A suivre !

vincen · Avril 9, 2021, 10:09

Salut,

J’étais aussi confronté à ce problème y a quelques mois.

Je bosse surtout sur LBC, mais j’avais remarqué que lacentrale avait laissé les infos des vendeurs en clair dans le code source de la page … Du coup je m’étais amusé à récupérer tout ça (la faille a vite disparu cependant). Et je m’étais retrouvé confronté à ce cas de figure.

Je passais par selenium, et je confirme que la réputation immédiate de ton proxy + la vitesse de scrap étaient des facteurs déterminants.

SashaLobstr · Avril 15, 2021, 7:06

@rahul

Effectivement, tactique bien connue de la part de lacentrale, à la limite de l’abus de confiance, je suis bien d’accord…

Le mieux ça reste encore de faire varier les paramètres de ta requête:

ip
headers

Et de veiller à ce que la qualité de ton ip soit la meilleure e.g. « résidentiel » plutôt que « datacenter »

Ces sites là proposent tout type d’ip:

Attention c’est pas donné

Sinon, j’ai fait un petit scraper de démo sur lacentrale.fr, si ça intéresse du monde!

https://lobstr.io/index.php/2021/04/15/scraping-voitures-la-centrale-fr-python/