Site(s) pour s'entraîner avec système de ban

BLou · Octobre 2, 2018, 10:20

Bonjour à tous,

Connaissez-vous des sites pour s’entraîner au scraping, plus précisément pour s’entraîner à contourner les systèmes de détection de bot ?

J’aimerai par exemple m’entraîner chez moi à scraper LBC, car je sais qu’ils utilisent Datadome, mais j’ai peur de me faire ban mon adresse « maison » et ne plus pouvoir y accéder par la suite pour un usage normal. J’aimerai notamment arriver au ban, pouvoir l’analyser et repartir de plus belle.

Ai-je raison de m’en inquiéter ?
Si oui, connaissez-vous de tels sites ?
Et si non, quel mécanisme puis-je mettre en place pour me faire ban mon bot, mais pas mon adresse « maison » ?

Merci à vous, et bon crawling

boristchangang · Octobre 3, 2018, 8:29

Prend un proxy et va jusqu’au ban autant s’entrainer en conditions réelles !

ScrapingExpert · Octobre 3, 2018, 9:07

Je rejoins @boristchangang, prends toi un ou des proxies, et vas y de manière barbare, abuses sur la volumétrie de requêtes, tu ne mets aucune humanisation, et la bête sortira forcément de son antre…

BLou · Octobre 4, 2018, 3:54

Ok je vais faire ça !

Je vais commencer avec des free proxy, mais ensuite si je passe à un niveau plus ou moins professionnel, ce sera insuffisant en terme de débit non ?

Vous utilisez tous des pools de proxy résidentiels dédiés vous ?

SimonLobstr · Octobre 5, 2018, 11:53

@BLou
tkt pas pour ton ip locale ils finiront pas la débloquer, au pire 1 jour de ban max.
On a fait un article très basique là dessus chez lobstr pour scraper avec Python: https://lobstr.io/index.php/2018/03/22/scraping-annonces-leboncoin-python-scrapy/

BLou · Octobre 5, 2018, 1:20

Merci, super intéressant.
Je vais bien regarder ton article, même si je compte coder moi-même en js le moteur en utilisant Puppeteer et du code maison pour ce qui ne le nécessite pas. Je commence déjà par scraper des proxy pour faire tourner d’autres bots dessus ensuite ! Je ne sais pas si ce sera professionnellement viable, mais bon l’expérience est trop cool donc je le fais ! Et puis qui sait, avec un bon pool de proxy, une rotation automatique et un picking géographique pour minimiser la latence, ça peut le faire pour faire tourner une 40aine de spiders je pense, voir plus avec un scraping plutôt poli…