Contourner une protection contre les robots pour scraper site

Hello la communauté,

Nous avons pour idée de scraper une plateforme de crowdfunding (Indiegogo) mais il y a une protection contre les robots, quelqu’un saurait comment la contourner ?

Un grand merci!

Hello Ty_Bo,

De quelle protection exactement s’agit-il? As tu pu identifier la cause (trop de requêtes depuis la même IP par ex) ?

+1 pour @ScrapingExpert

Nos « amis » de chez https://www.distilnetworks.com ? :smiley:

1 « J'aime »

Excellemment choisit le « amis » :joy:

tu round robin les IP et tu multithread les process (les robots) :slight_smile:
pour distillnetwork leur protection est bidon

1 « J'aime »

Avec « très peu » de choses on peut en effet facilement passer n’importe quelle « sécurité ». +1 pour distillnetworks x)

Bonjour à tous merci pour vos réponses, je vous tiens informé de la suite, effectivement il s’agit de distilnetworks.

Si le site que tu souhaites scraper possède une protection contre les robots, j’aurais tendance à te conseiller d’agir comme un humain. C’est toujours le mindset que je me fixe pour passer outre les sécurités d’un site.

Un ptit tuto soon relatif à « How to bypass Distill Network protection »? :slight_smile:

Il n’y a rien de bien sorcier en réalité et @pi2r3 avait déjà donné un élément de réponse.

Déjà passer à 100% par du headless et mimiquer au maximum le flow d’un utilisateur lambda. Faire tourner les IP (nationalités, etc - voir grand) et faire tourner les infos du système (smartphone, tablette, pc, android, windows, ios, tailles écrans, etc).

Je n’ai pas eu à m’y frotter depuis un moment mais le souvenir que j’en ai c’est qu’au final ça m’avait surpris lors de mes tests de requests HTTP/GET sous Postman. Après avoir compris qu’il y a avait une sécurité anti robot, il ne me restait plus qu’à me faire passer pour n’importe quel utilisateur lambda du site.

J’ai des libs que j’avais promis de mettre en open source. Un jour peut être :slightly_smiling_face:
Wait & see :L

3 « J'aime »