By-pass Datadome

J’imagine que les MP s’envoient après une période d’ancienneté, du coup c’est le deuxième fail de la journée après être tombé sur la protection datadome ce matin.

Mes bots marchaient très bien avant et là petite surprise en les relançant : datadome et ses dernières maj.

J’ai beaucoup cherché et visiblement pas assez, mais je tombe souvent sur ce forum donc autant y participer et tenter d’éluder ensemble ce problème.

J’utilise pupeteer et je passe bien les check bot type « bot . incolumitas . com » cité plus haut, j’arrive bien à résoudre le puzzle et même plus facilement que le captcha google d’avant mais malgré le petit message de succès il me ban.

J’imagine qu’il détecte des paramètres incohérents sur mon navigateur émulé, mais impossible de trouver lesquels…

Vous n’avez pas des pistes pour moi et tous les autres qui recherche ?

Bon datadome est français visiblement donc il y a moyen qu’il lise le forum de temps en temps, mais quand ils font une maj on fera de même et le combat continu non ?

Il y a des solutions en API ici

MMmmmmmm et comme ces solutions sont monétisées pourquoi aider des développeurs à s’améliorer ? J’ai cru que c’était un forum d’entraide, effectivement j’ai mal lu désolé.

Je peux vous faire un site vitrine plutôt que de s’embêter avec un forum, je fais du beau front ;).

Je prend note des deux produits, merci de m’avoir fait un retour.

EDIT : Par contre veilleio-veilleio-default avec un temps de réponse en 10.227ms, vous êtes sur que vous ne voulez pas aider les autres ? Et aucun des deux sont en live :/.

Haha je vois qu’on fait ça pub :slight_smile:

Fin de mois difficile…

Datadome lit le forum, organisez vous un discord privé pour passer sous les radars :pirate_flag:

3 « J'aime »

Je serais curieux de connaître le coût approximatif par requête passées dans les proxy de vos solutions @vincen et @josselin.

Une partie des scrapers passent par des proxy qui protègent ton IP et bypass aussi la majorité des tests anti-bots (pour les bons proxy), c’est la solution la plus simple et rapide, mais ce genre de proxy se paie au traffic utilisé. Si tu fais de gros volumes il vas falloir avoir les mêmes solutions que vendent ces proxy.

Ne modifie pas t’es headers seul car les valeurs peuvent être testées sur plusieurs points, utilise déjà une base de modules que tu vas override (selenium-stealth, puppeteer-extra-plugin-stealth…).

Une fois les modules installés, test les failles qui peuvent te détecter. Le meilleur outil que j’ai trouvé c’est CreepJS.

Ouvre CreepJS sur ton navigateur et sur ton emulateur pour comparer les résultats, cherche à corriger chaque éléments détectés que sur ton émulateur et pas sur ton navigateur classique (mis en évidence en rouge sur le creepjs).

Je tente de créer une surcouche à puppeteer-plugin-extra-stealth afin de matcher avec creepjs. Il y aura surement d’autres testers à éprouver avant de la publier.

Pour la résolution de captcha, tu as des infos ici : How to bypass “slider CAPTCHA” with JS and Puppeteer | by Filip Vitas | Medium . Après pour tous les captcha tu as une version adaptée aux handicapes, souvent sonore. Le plus basique est de créer un mp3 du son, demander le transcript à une api (il y en a pas mal dont celle de facebook) puis de réinsérer le transcript en texte, généralement il en demande 1 à 3 mais une fois que tu as l’accès tu as beaucoup du temps avant qu’il te redemande.

Pour les detections de navigateur, cet article est très intéressant : How Javascript is Used to Block Web Scrapers? In-Depth Guide

1 « J'aime »

Après avoir échangé un peu avec des utilisateurs de growthhacking, je me suis trompé sur les proxy.

Certains proposent des solutions pour éviter de se faire détecter, mais des version antérieures aux modules puppeteer / selenium fonctionnent encore contrairement aux dernières version.

Je vais bosser sur une surcouche des dernières versions et revenir à d’ancienne si je n’y parviens pas.

Pour les proxy je recommande plutôt d’utiliser un VPN qui sera moins cher et plus sécure (à mon sens). Certes il y a moins de plage d’ip, mais le fait que de nombreux utilisateurs l’utilisent au quotidien pour se protéger est un atout ! Je doute que LBC bloque tous les utilisateurs de NordVPN ou similaire. Mais je veux bien avoir vos avis.

2 « J'aime »

Possible d’échanger avec toi?

oui c’est possible :slight_smile:

Il y aussi le webmaster du site Leboncoin qui est ici

normal cest aussi sa la veille

@anon6981176 ne dit pas ça, après on vas se méfier de tous les users ^^.

On a de la chance, Datadome n’est pas le haut de gamme au fait https://www.imperva.com/resources/resource-library/reports/the-forrester-wave-bot-management/.

Si un utilisateur peut accéder au contenu, il y aura toujours des solutions pour scrapper. On peut rajouter une infinité d’obstacles pour nous ralentir en déployant un temps et un budget monumental, ça ne changera pas grande chose hors mis nous occuper un peu plus peut être.

Une vérification IP, navigateur, JS, captcha visuel ou sonore, suivi de la souris ou du scroll, même si « l’IA » pourrait protéger d’avantage, elle permettrait de scrapper tout autant. A partir du moment ou on peut trouver des VPS pour trois fois rien, sur chaque serveur on peut émuler plusieurs navigateurs parallèle chacun changeant d’ip toutes les 5 minutes, émuler le mouvement d’une courbe random de la souris pixel par pixel, scroller, changer de page et créer une navigation changeante d’un utilisateur standard… Bon courage si tu ne veux plus faire passer le moindre bot.

S’ils se protègent c’est pour leurs users (et aussi leur business), mais tant que tu fais des produits pour aider les autres en respectant les utilisateurs finaux ainsi que t’es clients (rémunéré ou non) fonce.

2 « J'aime »

Moi je pense que le webmaster du bon coin a infiltré la modération du fofo :shushing_face:

@Liberateur Ah je te jure, il s’est inscrit à mon Saas de scraping (que je vais bientôt lancer) avec son adresse @leboncoin il est pas très malin et je l’ai remonté dans le forum il like certains comm mais toujours centrée sur le scraping.

Mais tout à fait en phase avec tes propos il est impossible de bloquer le scraping du moment où tu es un site publics et surtout avec autant de trafic quotidien. Mais c’est normal qui se protège avec le nombre de gens qui démarchent la dessus comme des bourrins et ça tape également sur leur budget PUB mais c’est le jeu encore une fois. Quand tu sais qu’on même by pass une api Cloudfare c’est pas un captcha ou un puzzle qui va te protéger

2 « J'aime »

@boristchangang c’est toi le webmestre ?

Oups je suis grillé :joy::sweat_smile:

2 « J'aime »

Même les proxys 4G on va les bloquer bientot

1 « J'aime »

Je suis sur que beaucoup font de la veille et avec raison, peut-être qu’il s’est inscrit à ta solution pour te faire un poke juridique, big brother is watching you.

Tu sais, s’ils n’avaient plus de faux humains qui passaient sur leurs site ils ne pourraient plus faire voir des chiffres aussi extraordinaires à leurs clients qui ont des annonces jamais consultées, prouvant leur efficacité contrairement aux concurrents qui ne sont jamais scrappés x). Il en vas de même pour la pub, si tu leur retire tous les faux humains qui se comporte comme tel, ils vendront moins que le voisin qui ne refuse pas les bots.

Après si le CTO nous écoute, il aurait tout intérêt à créer une api payante de ses annonces (sans les coordonnées pour s’épargner la rgpd) et ainsi récupérer tout ce que l’on dépense dans nos systèmes ou solutions de scrappings. Si son codir ne veut pas, un truc pirate avec une adresse btc/eth me va très bien aussi. J’ai des trucs bien plus intéressants à faire que de maj régulièrement mes bots et je pense qu’il pourrait également améliorer son site qui en a besoin plutôt que de tenter de mettre une nouvelle couche d’enduit sur un mur de parpaing pour retenir l’océan. En gros c’est justin bieber qui tente de mettre en place un truc pour éviter les selfies, no way faut vivre avec.

2 « J'aime »

Bonjour Paul,

On peut en discuter sur ce sujet afin de savoir comment scraper ?

Merci