Bypass Datadome JS (lacentrale, lbc)

burito · Décembre 11, 2023, 2:49

Bonjour, je cherche un moyen pour pouvoir scraper Lacentrale. J’ai d’abord commencé par du scrapy mais comme lacentrale repose sur du JS pour pas mal de vérifs, je suis donc passé sur Selenium. J’ai testé jusqu’à présent :

Rotation de proxy et VPN (cyberghostvpn)
Modification des headers sur sélénium (recompilation du chromedriver aussi)

Mais rien à faire, en arrivant sur la centrale, dès que je change de page mon scrapper se fait détecter. Je pense que le problème pourrait se situer au niveau des cookies (surtout le cookie datadome), et je voulais savoir si des gens avaient réussi à contourner datadome.

josselin · Décembre 11, 2023, 4:07

Hello

Si tu veux scraper les données: Piloterr avec l’API Website Crawler.
Si tu veux automatiser des actions avec un navigateur: Scrapingbee avec l’API JavaScript Scenario.

burito · Décembre 12, 2023, 12:07

Merci beaucoup de l’aide apportée. Cependant j’aimerais bien trouver une méthode qui n’implique pas de passer par des API payantes, même si c’est bien sûr plus compliqué de le faire sois même c’est surtout pour la technique que je veux réaliser ce projet.

josselin · Décembre 12, 2023, 12:30

Tu peux te documenter ici GitHub - post04/datadome-documentation: Documentation of the datadome payload and very rough example of the math stuff implemented in golang with a scuffed payload gen.

burito · Décembre 13, 2023, 2:48

Merci beaucoup pour la doc, ça me débloque sur pas mal de choses. J’arrive à bien manipuler la donnée envoyée à datadome mais quelque chose me perturbe c’est à propos du cookie « datadome » dans le domaine .lacentrale.fr, que ce soit sur linux ou windows avec des navigateurs différents, j’ai ce cookie. Cependant sur Selenium je ne l’obtient pas et je suspecte le fait que datadome s’en serve pour bloquer la session. De plus je remarque qu’à la 20-ième page, je dois résoudre un captcha (captcha de datadome), mais je ne suis pas bloqué et les données ne sont pas altérées (ce qui est souvent le cas quand datadome identifie un scraper). Est-ce que tu aurais d’éventuelles pistes dessus ?

kurty · Mars 26, 2025, 9:43

Cela m’intéresse également, des news depuis ?