Contourner une protection contre les robots pour scraper site

Ty_Bo · Juillet 28, 2017, 8:23

Hello la communauté,

Nous avons pour idée de scraper une plateforme de crowdfunding (Indiegogo) mais il y a une protection contre les robots, quelqu’un saurait comment la contourner ?

Un grand merci!

ScrapingExpert · Juillet 28, 2017, 8:51

Hello Ty_Bo,

De quelle protection exactement s’agit-il? As tu pu identifier la cause (trop de requêtes depuis la même IP par ex) ?

mnmlstrntreprnr · Juillet 29, 2017, 10:08

+1 pour @ScrapingExpert

Nos « amis » de chez https://www.distilnetworks.com ?

ScrapingExpert · Juillet 31, 2017, 10:06

Excellemment choisit le « amis »

pi2r3 · Août 2, 2017, 7:17

tu round robin les IP et tu multithread les process (les robots)
pour distillnetwork leur protection est bidon

mnmlstrntreprnr · Août 3, 2017, 11:10

Avec « très peu » de choses on peut en effet facilement passer n’importe quelle « sécurité ». +1 pour distillnetworks x)

Ty_Bo · Août 3, 2017, 7:29

Bonjour à tous merci pour vos réponses, je vous tiens informé de la suite, effectivement il s’agit de distilnetworks.

docteurJavascript · Août 4, 2017, 1:49

Si le site que tu souhaites scraper possède une protection contre les robots, j’aurais tendance à te conseiller d’agir comme un humain. C’est toujours le mindset que je me fixe pour passer outre les sécurités d’un site.

ScrapingExpert · Août 4, 2017, 3:09

Un ptit tuto soon relatif à « How to bypass Distill Network protection »?

mnmlstrntreprnr · Août 6, 2017, 8:08

Il n’y a rien de bien sorcier en réalité et @pi2r3 avait déjà donné un élément de réponse.

Déjà passer à 100% par du headless et mimiquer au maximum le flow d’un utilisateur lambda. Faire tourner les IP (nationalités, etc - voir grand) et faire tourner les infos du système (smartphone, tablette, pc, android, windows, ios, tailles écrans, etc).

Je n’ai pas eu à m’y frotter depuis un moment mais le souvenir que j’en ai c’est qu’au final ça m’avait surpris lors de mes tests de requests HTTP/GET sous Postman. Après avoir compris qu’il y a avait une sécurité anti robot, il ne me restait plus qu’à me faire passer pour n’importe quel utilisateur lambda du site.

J’ai des libs que j’avais promis de mettre en open source. Un jour peut être
Wait & see :L