Comment bloquer ScraperAPI pour qu'il ne scrape pas notre site

EmmanuelC · Mai 9, 2023, 1:01

Bonjour,
Pour une fois ceci n’est pas une discussion sur comment utiliser un outil scraping, mais plutot comment bloquer un outil scraping!
Notre site se fait scraper tous les jours par ScraperAPI, ce qui nous pompe pas mal de resources. On aimerait les bloquer, sauriez-vous comment s’y prendre?
Merci d’avance,
Manu

lorent · Mai 9, 2023, 2:57

Hello,
Une des solutions (plus simple selon moi) :
1 - Utiliser l’outil WHOIS pour trouver les IP ou plages d’IP.
2 - Utiliser Google avec la requête suivante : block ip access (nginx OR htaccess) pour trouver des tutos.
3 - Faire des tests

anon6981176 · Mai 9, 2023, 7:37

Malheureusement ( heureusement) c’est techniquement impossible de bloquer un scraping

Morph · Mai 9, 2023, 8:28

Hello,
Désolé, ça fait un peu réponse bateau, mais ça dépend…
Qu’est-ce qui est scrappé ?
Ou est la donnée ?
A qui est-elle destinée à l’origine ?
Sous quelle forme est-elle ? et est-elle affichée ?

Oui, mais tu peux le rendre tellement coûteux que ça limite quand même pas mal le nombre de personnes qui vont pouvoir/vouloir le faire…

anon6981176 · Mai 9, 2023, 8:39

S’il devient coûteux la scraping devient rare et le prix devient plus élevé justement car plusieurs personnes ne se lancent pas à cause du prix ou la technique très avancée.

Je suis freelance en scraping et Leboncoin, la source que je scrape la plus protégé, est très lucrative car très peu de concurrent le font.

Morph · Mai 9, 2023, 8:47

Encore faut-il que les potentiels acheteurs veulent bien en payer le prix.
L’exemple de LBC n’est pas forcément le plus pertinent car les données extraites ont potentiellement beaucoup de valeur pour beaucoup d’acteurs très différents.
Le coût du scrapping peut donc être « amorti » plus facilement.

D’autre part, le résultat est surtout que moins de personnes le font, et ça c’est l’objectif de @EmmanuelC justement : le problème des ressources nécessaires.

anon6981176 · Mai 9, 2023, 8:54

@EmmanuelC , on peut avoir le site que tu souhaites protéger ?

josselin · Mai 9, 2023, 10:59

Tu peux ralentir ou rendre la tâche plus coûteuse avec des techniques, mais bon… Des clients ont des budgets de plusieurs milliers d’euros par mois pour crawler des sites. C’est une guerre sans fin de tech/bypass/argent. Si ça touche vraiment votre site + vous avez du budget, il faut investiguer, sinon ne perdez pas votre temps!

Kevlas · Mai 10, 2023, 12:03

J’ai rencontré un jour un site dont je ne me souviens plus du nom, que je cherchais à scrapper mais en vain.

La raison ?

Il avait un système de balise et d’organisation du code dynamique ce qui faisait sauter mes chemins.

J’ai trouvé ça tellement ingénieux que j’ai abandonné

EmmanuelC · Mai 10, 2023, 10:13

Merci pour toutes vos reponses. On va deja essayer de bloquer leurs IPs (solution facile), et s’il faut mettre plus de budget pour ralentir le scraping ou creer du code dynamique, on va peut etre laisser tomber Je vous remercie encore

Morph · Mai 10, 2023, 8:17

Bloquer les IP, vu les posts sur ce même forum à propos de proxy, je ne pense pas que cela leur fera peur…
Par contre si tu es capable d’identifier leurs IP, tu peux reverse-ingénérer leur technique de scrapping, ou leur fourguer des fausses données

Comme dit @josselin , le tout est de dépenser assez d’€ pour les décourager, mais moins que cela te coûte de te faire scrapper… Alors la première chose à faire est d’évaluer la perte subie.

josselin · Mai 10, 2023, 8:34

Le plus puissant est de laisser passer les scrapers, quand tu détectes une anomalies (ip qui req beaucoup), tu retournes de la fake data Bien difficile à gérer!

amnay · Mai 10, 2023, 10:34

meilleure réponse

Felix · Mai 11, 2023, 1:26

Si cela bloque ton business car le site est down ou lent, tu peux utiliser ce genre de system : queue-it.com (mais c’est $$ )

camille · Mai 11, 2023, 1:59

Il y aussi datadome (pas sur que ça te protègera de scraperAPI), imperva, les outils anti-bot de Cloudflare.

josselin · Mai 15, 2023, 1:15

C’est $$ et ça se bypass

salesdorado · Mai 15, 2023, 4:02

Tout se bypass, mais Cloudflare WAF c’est très sérieux et facile à mettre en place – et c’est gratuit.

Sinon si ça a vraiment un impact en termes de ressources ça vaut peut-ê le coup d’ouvrir la donnée en API (payant pour la KYC mais pas cher) avec throttling plutôt que de chercher à bloquer. Ou de laisser trainer des routes non documentées pour que les + chauds puissent se servir sans tabasser vos serveurs.

ffeugas · Mai 16, 2023, 4:41

Hello, je connais le fondateur de https://datadome.co/fr/ qui fait semble-t-il ce que tu cherches :). Si besoin de mise en relation, let me know mais j’imagine qu’en passant par les pages de contact de leur site ça sera aussi efficace.

EmmanuelC · Mai 17, 2023, 7:40

Merci Fabrice, c’est sympa. Je te tiendrais au courant

LoulouL · Mai 25, 2023, 5:51

Enorme !! Ça doit pouvoir se coder mais pas evident