Scraper lacentrale.fr

Bonjour,

J’essaye de scraper la base d’annonces de lacentrale.fr à partir d’un scripte Python. Je me suis rendu compte, malheureusement, que le site m’envoyait des « fausses » données dès qu’il m’identifie comme bot.

J’ai essayé de contourner le problème en faisant une rotation avec plusieurs headers et une centaine d’adresses IP (partagées) grâce à un VPN, mais le problème revient toujours (pour certaines adresses IP).

J’ai du mal à comprendre comment le site identifier certaines de mes IP avant même que j’ai pu faire plus d’une requête par IP. Avez-vous des conseils / expériences avec lacentrale.fr ? Est-ce qu’utiliser Selenium pourrait régler ce problème ?

1 J'aime

Tes adresses ip viennent d’où ?

1 J'aime

Désolé mon message ne passe pas bizarrement. Je fais une rotation sur environ 500 servers de NordVPN à chaque requête

1 J'aime

Je ne serais pas étonné de savoir que les IPs de NordVPN soient déjà bien connues et donc blacklistés d’office

2 J'aime

Merci. J’ai essayé avec un proxy résidentiel de chez proxyscrape et j’ai le même problème… Quelqu’un a déjà eu un problème similaire ?

Aucun pb de mon côté

Tu es sûr qu’ils t’envoient des fausses données ?
Souvent c’est juste que la fonctionnalité de tri n’est pas géniale, et renvoie des résultats triés dans le désordre, ce qui donne l’impression qu’il s’agit de fausses données.

J’ai souvent entendu parler de la légende urbaine du site qui repère ton scraper et t’envoie des fausses données, mais je ne l’ai jamais constaté sur aucun site… et j’en scrape beaucoup.

1 J'aime

@romain-datascrap J’avais du mal à y croire mais oui, j’en suis sur : il suffit d’aller sur une page de lacentrale.fr (par exemple DS DS 7 CROSSBACK 2.0 BLUEHDI 180 PERFORMANCE LINE + AUTOMATIQUE 2020 DIESEL occasion - Drôme 26), de l’actualiser 5-10 fois et tu verras que le prix, l’année, la première immatriculation et le kilométrage auront changé.
Le ‹ biais › est toujours le même : la voiture ‹ rajeunit › d’une année et le prix augmente de 10-20%. C’es très insidieux car presque impossible à détecter une fois que tu as scrapé le site, si tu ne fais pas attention.

@mds_z si tu as un script fonctionnel et que tu as réussi à éviter ce problème, j’aimerais bien te poser quelques questions em mp ! Je bosse là dessus depuis plus d’un mois et je deviens un peu fou. Petite précision : je suis thésard et c’est pour un papier académique, par pour du marketing.

@rahul Incroyable :grinning_face_with_smiling_eyes: j’ai testé avec Tor, j’ai en effet immédiatement une augmentation du prix. Je me demande quand même si c’est une protection anti-scraper ou bien une tentative d’escroquerie aléatoire.

Ça me fait penser à Netflix qui à un moment affichait des prix qui changeaient aléatoirement pour voir combien les gens étaient prêts à mettre. (pas d’escroquerie ici car tu es toujours prélevé du bon prix, même si on t’affiche un prix plus élevé : https://geeko.lesoir.be/2019/03/06/netflix-affiche-de-faux-tarifs-volontairement-trop-eleves-en-france/)

Pour ton problème, il faudrait voir si ce sont les IP qui se font détecter, ou bien le fait que tu n’aies pas de browser. Tu peux essayer avec des proxy résidentiels / en utilisant un headless browser.

2 J'aime

@romain-datascrap Au départ je pensais à quelque chose dans ce genre (j’ai cru comprendre que les compagnies aériennes étaient suspectées d’augmenter le prix aussi après plusieurs visites), mais j’ai du mal à y croire puisque la date du véhicule change aussi… C’est plutôt une manière de ‹ cacher › l’annonce originale je pense.

J’ai essayé avec des proxy résidentiels partagés (proxyscrape.com). La plupart fonctionnent, mais j’ai toujours quelques annonces qui deviennent ‹ biaisées ›, et pas moyen de les identifier automatiquement… J’ai essayé avec du JS rendering, mais ça ne change rien, je ne pense pas que le problème vienne de là. C’est sûrement une histoire de IP / cookies, mais je n’arrive pas à résoudre le problème :confused: