By-pass Datadome

Bonjour,

Je voulais savoir si certains d’entre vous ont déjà réussis à contourner la sécurité datadome, j’ai notamment essayé avec selenium, en modifiant certains paramètres rien ne passe (taille de la page, chargement du js, changer user-agent etc)

Merci d’avance :slight_smile:

Bonjour,

Oui c’est possible de contourner datadome (je scrape plusieurs sites protégés). Malheureusement personne ne dévoile ses techniques pour plusieurs raisons. A titre personnel, je peux te fournir des cookies valides pour ton scraping ou directement te fournir les données dont tu as besoin !

Bonjour,

Oui tout à fait c’est possible, je confirme. J’ai également des scrapers qui tournent sur des sites qui sont protégés par cette protection. Dispo pour échanger avec toi si tu as besoin d’aide :slightly_smiling_face:

2 « J'aime »

@romain-datascrap je suis intéressé pour échanger ( par contre je suis pas sûr que je puisse envoyer de mp)
Merci :blush:

Il y a plein d’articles sur stack overflow et des github datadome bypass… de septembre 2020 à aujourd’hui

Certe, mais j’ai pas trouvé mon bonheur, d’autant que je suis pas python friendly .
Après oui évidement je continue à chercher, mais poser la question et discuter marche aussi :smiley:

Voilà il faut se mettre au python. Lol

1 « J'aime »

J’ai commencé le scraping il y a une semaine, et puppeteer fonctionnait très bien sur LBC avec les packages puppeteer-extra et puppeteer-extra-plugin-stealth.
Depuis le 28 avril il ne fonctionne plus, mais je ne doute pas qu’il refonctionnera d’ici peu.
Il existe des sites pour tester ton script et l’améliorer comme https://bot.incolumitas.com/.

1 « J'aime »

Je confirme que cela fonctionne bien.

J’en ai eu marre des majs de sécu sur LBC, donc j’ai sortie l’artillerie supralourde pour le scrap. Cela fait plus de 6 mois que je n’ai plus de problème.
Si tu as besoin d’une solution robuste dans le temps pour ne plus avoir à te soucier du sujet, hésites pas :slight_smile:

Je suis curieux de savoir la solution que tu utilises, il existe bien des solutions payante mais pour ce que je souhaites faire c’est plutôt un projet expérimental.

Avant que puppeteer-extra me plante j’avais gérer la récupération : des urls, la pagination, et l’enregistrement d’urls unique en base de donnée.
je n’ai pas put tester si mon container docker avec tor et privoxy fonctionne.

Je vais essayer de passer la captcha de datadome et je verrai bien si continuer dans cette voie est une impasse ou pas.

@glasswalker Essaye avec la version 91 de chromium (chrome-unstable), on a corrigé un leak directement dans chronium, les objets js proxifés leaker dans la stack trace, ce qui rend détectable les scripts style stealth. Je ne sais pas si datadome utilise ce signal mais d’autre anti bot on rollout cette détection en prod, faudrait que je les re reverse pour check. Il se peut aussi que si tu as update ou n’utilise pas une version fixe de chrome et que tu sois sur la v90 qui n’expose plus les mime types et plugins (utilisés pour fingerprint). Tout les anti bots se sont vautrés à la sortie de cette version comme c’est un signal fort pour eux

Au delà de ça, datadome check surtout la qualité de l’ip, si tu es en ASN datacenter il y a peu de chance que tu passe sans challenge. En revanche si ça passe et que au bout de 2 / 3 scrapes tu te prends le challenge anti bot, c’est surement la fingerprint qui n’est pas bonne.

Tor tu peux oublier, les noeuds de sortie sont connus donc à détecter c’est du pain béni. Vérifie que ton WebRTC ne leak pas ton ip aussi, en blockant l’udp sauf 53 (dns).

Si tu veux quelque chose de sérieux pour checker : CreepJS a noter que la plupart des anti bots n’utilisent pas les solutions ici, certaines sont très avancés ou dégrade trop les performances

1 « J'aime »

Un grand merci pour tes conseils .Une mise à jour du 3 mai de puppeteer à mis à jour chromium vers la version 91.
Grâce à ton lien, je me suis aperçut que le plugin stealth de puppeteer se faisait détecter et m’identifiait comme un bot.J’ai dû faire sans.
Avec un user-agent à jour et le navigator.webdriver passé à false j’obtiens via ton lien la même configuration entre un chrome classique et un chromium headless, au pourcentage près. Mais je n’arrive pas à bypass datadome. J’ai l’impression que le scraping va me demander de l’investissement personnel pour mieux comprendre le fonctionnement de chromium. :sweat_smile:
Encore merci pour tes conseils, ca va m’éviter de perdre du temps.

Problème résolu, pas besoin de passer le challenge geotest anti bot, ça passe crème après quelques modifications. Enfin jusqu’à la prochaine fois.
encore merci @jjohann.

1 « J'aime »

pouvez-vous s’il vous plaît aider, comment avez-vous pu résoudre le problème?
Je veux connaître la version de chromedriver ? un exemple de code pour contourner le site Web protégé par DataDome

je peux contourner datadome facilement, j’ai un exemple de datadome du site lbc , si vous êtes intéressé contact prv