Bypass Datadome JS (lacentrale, lbc)

Bonjour, je cherche un moyen pour pouvoir scraper Lacentrale. J’ai d’abord commencé par du scrapy mais comme lacentrale repose sur du JS pour pas mal de vérifs, je suis donc passé sur Selenium. J’ai testé jusqu’à présent :

  • Rotation de proxy et VPN (cyberghostvpn)
  • Modification des headers sur sélénium (recompilation du chromedriver aussi)

Mais rien à faire, en arrivant sur la centrale, dès que je change de page mon scrapper se fait détecter. Je pense que le problème pourrait se situer au niveau des cookies (surtout le cookie datadome), et je voulais savoir si des gens avaient réussi à contourner datadome.

Hello :wave:

Si tu veux scraper les données: Piloterr avec l’API Website Crawler.
Si tu veux automatiser des actions avec un navigateur: Scrapingbee avec l’API JavaScript Scenario.

Merci beaucoup de l’aide apportée. Cependant j’aimerais bien trouver une méthode qui n’implique pas de passer par des API payantes, même si c’est bien sûr plus compliqué de le faire sois même c’est surtout pour la technique que je veux réaliser ce projet.

1 « J'aime »

Tu peux te documenter ici GitHub - post04/datadome-documentation: Documentation of the datadome payload and very rough example of the math stuff implemented in golang with a scuffed payload gen.

1 « J'aime »

Merci beaucoup pour la doc, ça me débloque sur pas mal de choses. J’arrive à bien manipuler la donnée envoyée à datadome mais quelque chose me perturbe c’est à propos du cookie « datadome » dans le domaine .lacentrale.fr, que ce soit sur linux ou windows avec des navigateurs différents, j’ai ce cookie. Cependant sur Selenium je ne l’obtient pas et je suspecte le fait que datadome s’en serve pour bloquer la session. De plus je remarque qu’à la 20-ième page, je dois résoudre un captcha (captcha de datadome), mais je ne suis pas bloqué et les données ne sont pas altérées (ce qui est souvent le cas quand datadome identifie un scraper). Est-ce que tu aurais d’éventuelles pistes dessus ?

Cela m’intéresse également, des news depuis ?