Connaissez-vous des sites pour s’entraîner au scraping, plus précisément pour s’entraîner à contourner les systèmes de détection de bot ?
J’aimerai par exemple m’entraîner chez moi à scraper LBC, car je sais qu’ils utilisent Datadome, mais j’ai peur de me faire ban mon adresse « maison » et ne plus pouvoir y accéder par la suite pour un usage normal. J’aimerai notamment arriver au ban, pouvoir l’analyser et repartir de plus belle.
Ai-je raison de m’en inquiéter ?
Si oui, connaissez-vous de tels sites ?
Et si non, quel mécanisme puis-je mettre en place pour me faire ban mon bot, mais pas mon adresse « maison » ?
Je rejoins @boristchangang, prends toi un ou des proxies, et vas y de manière barbare, abuses sur la volumétrie de requêtes, tu ne mets aucune humanisation, et la bête sortira forcément de son antre…
@BLou
tkt pas pour ton ip locale ils finiront pas la débloquer, au pire 1 jour de ban max.
On a fait un article très basique là dessus chez lobstr pour scraper avec Python: Lobstr
Merci, super intéressant.
Je vais bien regarder ton article, même si je compte coder moi-même en js le moteur en utilisant Puppeteer et du code maison pour ce qui ne le nécessite pas. Je commence déjà par scraper des proxy pour faire tourner d’autres bots dessus ensuite ! Je ne sais pas si ce sera professionnellement viable, mais bon l’expérience est trop cool donc je le fais ! Et puis qui sait, avec un bon pool de proxy, une rotation automatique et un picking géographique pour minimiser la latence, ça peut le faire pour faire tourner une 40aine de spiders je pense, voir plus avec un scraping plutôt poli…