By-pass Datadome

lemangeurdetorrent · Février 12, 2021, 5:25

Bonjour,

Je voulais savoir si certains d’entre vous ont déjà réussis à contourner la sécurité datadome, j’ai notamment essayé avec selenium, en modifiant certains paramètres rien ne passe (taille de la page, chargement du js, changer user-agent etc)

Merci d’avance

Paul780 · Février 12, 2021, 9:23

Bonjour,

Oui c’est possible de contourner datadome (je scrape plusieurs sites protégés). Malheureusement personne ne dévoile ses techniques pour plusieurs raisons. A titre personnel, je peux te fournir des cookies valides pour ton scraping ou directement te fournir les données dont tu as besoin !

romain-datascrap · Février 13, 2021, 3:36

Bonjour,

Oui tout à fait c’est possible, je confirme. J’ai également des scrapers qui tournent sur des sites qui sont protégés par cette protection. Dispo pour échanger avec toi si tu as besoin d’aide

Lexa94 · Mars 29, 2021, 11:58

@romain-datascrap je suis intéressé pour échanger ( par contre je suis pas sûr que je puisse envoyer de mp)
Merci

Jorgi · Mars 31, 2021, 7:28

Il y a plein d’articles sur stack overflow et des github datadome bypass… de septembre 2020 à aujourd’hui

Lexa94 · Mars 31, 2021, 3:22

Certe, mais j’ai pas trouvé mon bonheur, d’autant que je suis pas python friendly .
Après oui évidement je continue à chercher, mais poser la question et discuter marche aussi

Jorgi · Mars 31, 2021, 3:45

Voilà il faut se mettre au python. Lol

glasswalker · Mai 1, 2021, 8:56

J’ai commencé le scraping il y a une semaine, et puppeteer fonctionnait très bien sur LBC avec les packages puppeteer-extra et puppeteer-extra-plugin-stealth.
Depuis le 28 avril il ne fonctionne plus, mais je ne doute pas qu’il refonctionnera d’ici peu.
Il existe des sites pour tester ton script et l’améliorer comme https://bot.incolumitas.com/.

vincen · Mai 1, 2021, 10:32

Je confirme que cela fonctionne bien.

J’en ai eu marre des majs de sécu sur LBC, donc j’ai sortie l’artillerie supralourde pour le scrap. Cela fait plus de 6 mois que je n’ai plus de problème.
Si tu as besoin d’une solution robuste dans le temps pour ne plus avoir à te soucier du sujet, hésites pas

glasswalker · Mai 1, 2021, 7:35

Je suis curieux de savoir la solution que tu utilises, il existe bien des solutions payante mais pour ce que je souhaites faire c’est plutôt un projet expérimental.

Avant que puppeteer-extra me plante j’avais gérer la récupération : des urls, la pagination, et l’enregistrement d’urls unique en base de donnée.
je n’ai pas put tester si mon container docker avec tor et privoxy fonctionne.

Je vais essayer de passer la captcha de datadome et je verrai bien si continuer dans cette voie est une impasse ou pas.

jjohann · Mai 3, 2021, 4:01

@glasswalker Essaye avec la version 91 de chromium (chrome-unstable), on a corrigé un leak directement dans chronium, les objets js proxifés leaker dans la stack trace, ce qui rend détectable les scripts style stealth. Je ne sais pas si datadome utilise ce signal mais d’autre anti bot on rollout cette détection en prod, faudrait que je les re reverse pour check. Il se peut aussi que si tu as update ou n’utilise pas une version fixe de chrome et que tu sois sur la v90 qui n’expose plus les mime types et plugins (utilisés pour fingerprint). Tout les anti bots se sont vautrés à la sortie de cette version comme c’est un signal fort pour eux

Au delà de ça, datadome check surtout la qualité de l’ip, si tu es en ASN datacenter il y a peu de chance que tu passe sans challenge. En revanche si ça passe et que au bout de 2 / 3 scrapes tu te prends le challenge anti bot, c’est surement la fingerprint qui n’est pas bonne.

Tor tu peux oublier, les noeuds de sortie sont connus donc à détecter c’est du pain béni. Vérifie que ton WebRTC ne leak pas ton ip aussi, en blockant l’udp sauf 53 (dns).

Si tu veux quelque chose de sérieux pour checker : CreepJS a noter que la plupart des anti bots n’utilisent pas les solutions ici, certaines sont très avancés ou dégrade trop les performances

glasswalker · Mai 4, 2021, 1:48

Un grand merci pour tes conseils .Une mise à jour du 3 mai de puppeteer à mis à jour chromium vers la version 91.
Grâce à ton lien, je me suis aperçut que le plugin stealth de puppeteer se faisait détecter et m’identifiait comme un bot.J’ai dû faire sans.
Avec un user-agent à jour et le navigator.webdriver passé à false j’obtiens via ton lien la même configuration entre un chrome classique et un chromium headless, au pourcentage près. Mais je n’arrive pas à bypass datadome. J’ai l’impression que le scraping va me demander de l’investissement personnel pour mieux comprendre le fonctionnement de chromium.
Encore merci pour tes conseils, ca va m’éviter de perdre du temps.

glasswalker · Mai 4, 2021, 9:11

Problème résolu, pas besoin de passer le challenge geotest anti bot, ça passe crème après quelques modifications. Enfin jusqu’à la prochaine fois.
encore merci @jjohann.

soba · Septembre 10, 2021, 4:38

pouvez-vous s’il vous plaît aider, comment avez-vous pu résoudre le problème?
Je veux connaître la version de chromedriver ? un exemple de code pour contourner le site Web protégé par DataDome

amnay · Septembre 11, 2021, 8:50

je peux contourner datadome facilement, j’ai un exemple de datadome du site lbc , si vous êtes intéressé contact prv

Farady_Shalyah · Octobre 1, 2021, 12:19

Bonjour,

Est-ce que tu peux m’aider, je suis au point mort. Ou m’indiquer la méthode.

Merci

jaquille · Octobre 21, 2021, 1:00

Bonjour,

Pour faire suite à la discussion, et pour éviter que je perde trop de temps, est il techiquement possible de scraper de manière très raisonnable ( on va dire 1000 requetes 1j par semaine) un site protégé par datadome, sans utilisation de proxy. Après quelques galères, j’ai une automatisation qui marche plus ou moins, mais en au bout d’une 30aine de requête je dois résoudre un catcha à la main. Je suis prenneur de conseils !

Merci beaucoup à tout ceux qui partagent leur connaissances !

josselin · Octobre 21, 2021, 1:16

Bonjour @jaquille, oui mais les gens ne partagent pas ces connaissances. Bon courage !

Kevin-Zimmermann · Octobre 21, 2021, 1:27

Hello @jaquille,

J’avais réussi à l’époque à bypass un service (qui utilisait potentiellement Datadome) sur des petits besoins en faisant un partage de connexion avec mon téléphone (Android non root) en 4G et en faisant ON/OFF sur le mode data (presque comme le mode avion) du téléphone avec MacroDroid.
Cela permettait de changer d’IP 4G.

Voici une capture :

Merci d’avance de ton retour d’XP
Bonne chance

jaquille · Octobre 21, 2021, 1:29

Ingénieux ! Je ne peux pas tester cette astuce malheureusement… Merci du partage !