ByPass DataDome (seloger)

Salut à tous,

Je sais que ce sujet revient souvent, mais leur algorithme de détection évolue rapidement.
Est ce que quelqu’un à une méthode afin de passer datadome, notamment avec selenium ?
Possibilité de rémunération.

Bonne journée

Salut,

@yarek peut te répondre, il est callé sur le sujet :raised_hands:

Personnellement je n’utilise pas Selenium, mais Puppeteer (je n’ai jamais compris l’utilité d’utiliser python pour scrapper le web qui est basé sur du javascript).

Oui je comprends votre point de vue, j’ai utilisé python par habitude.
Et avec pupeteer vous arrivez à vous rendre sur seloger par exemple ?

@yarek je veux bien savoir ta technique aussi, elle doit être plus efficace que selenium en python

Salut all, python peut être plus performant que Node et Deno, mais ce n’est pas vital ;).

Datadome revient souvent, je te recommande de lire les derniers sujets du forum qui le concerne.

En synthèse il te faut de quoi masquer ton selenium ou puppeteer (par exemple avec puppeteer-extra-stealth) et quoi qu’il arrive masquer ton ip, soit un vpn soit un proxy.

  • VPN : moins cher que les proxies mais tout de suite détectés, il te faudra résoudre des captcha (des librairies le fond, mais il faudra surement mettre un peu les mains dans le code)
  • Proxy : les bons proxy sont moins détectés, si c’est le cas tu change d’ip ou résoud le capcha sinon tu change d’ip jusqu’à être autorisé

Et quand tu scrap un site, check toujours s’il n’y a pas d’api tapable directement plutôt que de devoir charger toutes les pages ;).

Si tu es sur selenium et python.
Tu peux utiliser GitHub - ultrafunkamsterdam/undetected-chromedriver: Custom Selenium Chromedriver | Zero-Config | Passes ALL bot mitigation systems (like Distil / Imperva/ Datadadome / CloudFlare IUAM)
Si tu veux changer de user agent ça marche bien assure toi juste que tes user agent sont sur le même os que l’ordi ou le server ou tu lances ton script.
Pour les ips utilise des proxys comme smartproxy.com ou iproyal.com ils passent plutôt bien, mais bien sûr y a plein d’autres.
Si par malheur, tu as quand même eux un captcha à résoudre, tu peux utiliser anti-captcha.com ils ont une extension chrome que tu peux installer sur ton navigateur et ça résout automatiquement tous les captchas qui se présentent dans la page.
Avec cette méthode, j’ai déjà scrapper seloger et je n’ai pas eu de soucis.

@yarek explique pourquoi c’est mieux javascript, on utilise que Python ici

Ce n’est pas mieux. C’est juste plus naturel de bosser en javascript quand les sites sont écrits en javascript, plutôt qu’en Python, Rust ou Elixir.
Et je pense également qu’il est plus naturel d’utiliser un outil open source écrit ar google (puppeteer) pour automatiser Chrome, un navigateur écrit par Google.
C’est juste du bon sens.

Mais si vous n’êtes à l’aise qu’avec Python, alors continuez à utiliser Selenium: c’est très bien également.

Tu as trouvé une soluce? J’essaye de scrape LBC mais j’ai des problèmes avec les captchas. Vu que les captchas de datadome (geo-test) render que avec du js, la lib python anticaptchaofficial n’arrive pas a le solve (car ça envoie une requete sans js).
Si qlq peut à une idée/alternative je serais reconnaissant.

Viens en DM

On peut aussi utiliser Playwright en Python :slight_smile:

Ce sujet a été automatiquement fermé après 365 jours. Aucune réponse n’est permise dorénavant.