🚀 800 requêtes/minute sur un site protégé par Cloudflare… Sans navigateur ni Headless.

Je viens de stabiliser un scraper sur une cible protégée par Cloudflare et les résultats me surprennent.

Le setup :
:small_blue_diamond: 100% requĂŞtes HTTP (pas de navigateur, pas de headless)
:small_blue_diamond: 800 requêtes / minute (réussi)
:small_blue_diamond: 95-97% de succès
:small_blue_diamond: Coût : Proxys résidentiels à 1$ le Go

Le plus drôle, c’est que je n’ai pas pu tester la stabilité sur 24h pour une raison simple : en 5 ou 6 heures, j’avais littéralement aspiré 100% du site. Il n’y avait plus rien à prendre.

Vraies questions pour les experts : Est-ce que c’est une réelle prouesse technique aujourd’hui ou c’est devenu standard d’avoir ce rendement avec des proxys aussi peu chers ?

Et surtout, vous pensez que je peux pousser encore plus loin ? Ou est-ce que j’ai juste de la chance sur le court terme et qu’ils finiraient par me détecter sur la durée si le site était plus gros ?

1 « J'aime »

Tout dépend de l’abonnement Cloudflare Bot Management derrière le site. Ce n’est pas parce que tu vois Cloudflare que le site est forcément bien protégé.

1 « J'aime »

on est bientôt tous au chômage, l’ia prend nos jobs, préparez vous

2 « J'aime »

Et on peut savoir l’abonnement qu’ils prennent ou c’est un peu difficile de le savoir ?

Tu scraps via une techno particuliere (genre selenium) ou osef un peu un playwright suffit ? Tant que tes proxys sont bien gerer?

En tout cas c’est tres clean je trouve ^^

Moi, je trouve ça stylé, même si je n’ai pas du tout l’expérience de @josselin.

Je profite de ce sujet, qui est les experts du scrapping de sites et du fait que @Sonic met le sujet de l’IA sur la table, pour avoir votre avis sur Firecrawl.

Est-ce que vous connaissez des alternatives qui sont mieux ?

C’est sympa, on commence pas mal à les utiliser dans l’agence pour créer des TAM, des listes de comptes. C’est super pratique.

Si le site est sur Cloudflare sans Bot Management avancé (Free / Pro ou règles basiques), ce que tu observes est assez normal je pense.
Là où je serais prudent, c’est sur la durée. Le fait d’avoir aspiré 100 % du site en quelques heures montre surtout que la cible était petite et peu surveillée. Sur un site plus gros ou stratégique, tu te ferais très probablement scorer progressivement (pas forcément bloqué net, mais dégradé).

2 « J'aime »

Là, c’est un gros site, c’est pour ça que ça m’étonne, c’est un gros site sur une des plus grosses niches du divertissement.

Et bloque son API pour que ce soit utilisé que par une entreprise qui a le monopole sur la data. Donc c’est pour ça que je trouve ça très étonnant.

Qu’ils aient un abonnement Cloudflare aussi bas.