Scraping un site protégé par Cloudflare

Bonjour tout le monde!

Depuis quelques mois/années je scrape un site sans trop de difficulté. Pour cela j’avais développé un script serverless hébergé sur AWS pour avoir une IP aléatoire, avec un user-agent random et en lissant les appels dans le temps (1 appel toutes les 30 secondes maximum). Ca fonctionnait bien mais désormais il est protégé par Cloudflare.

J’ai tenté d’utiliser un Chromium en headless mais il est malheureusement détecté par Cloudflare.

J’ai tenté d’utiliser des services tiers (scrapingbee par exemple) en utilisant leur proxy premium, mais c’est aussi détecté.

Je suis à cours de solutions à ce stade, auriez-vous des pistes à me conseiller?

Je précise que je suis développeur, mais je ne suis pas hyper calé en scrapping.

Le site en question: https://www.cardmarket.com/en/Pokemon/Products/Singles/Crown-Zenith/Radiant-Charizard-CRZ020

Merci d’avance!

Hello! Tu peux me contacter :slight_smile:

Hello, tu peux surement tester un petit coup de fiverr, il y’en a qui sont très bons pour réussir a trouver des solutions a ce genre de problèmes
Bon courage :slight_smile:

Salut je suis aussi en train d’essayer certaines choses et Cloudflare pose problème. Je suis entré en contact avec une personne qui réussi à scraper le site tout les jours et plusieurs fois par jour. Donc visiblement c’est encore faisable. Si des experts du scraping cloudflare sont présent ça m’intéresse aussi de savoir comment réussir :slightly_smiling_face:

Salut, j’ai utilisé cette bibliotheque à la place de Selenium, ça marche nickel pour bypass cloudfare: https://github.com/stephanlensky/zendriver

2 « J'aime »

En service payant il y a notre service Website Rendering chez Piloterr pour bypass les anti-bots :slight_smile:

Tu peux utiliser cette technique https://youtu.be/5Nwsyzyf7Is

merci pour ton partage Aymerico34

1 « J'aime »

un bon proxy 4g ou résidentiel fera sauter le bouchon.

1 « J'aime »

as tu regardé brightdata? ca coute un bras mais efficace

1 « J'aime »