Vous êtes pas mal comme moi à crawler le web et je me demandais, avez-vous déjà rencontré LA sécurité qui vous a bloqué pour réaliser ce que vous souhaitiez ?
Perso, je sais que je me suis déjà retrouvé face à Distill Networks qui m’a donné du fil à retordre (les 30 premières minutes) et puis finalement plus de soucis . En savoir plus sur Distill Networks.
À partir du moment où le site accepte d’être scrapé par Google, je ne vois pas comment il pourra être inscrapable. La meilleure protection, c’est de privatiser sa data via un login avec limitation.
Après tu vas me dire, tu peux créer plusieurs comptes, etc… et automatiser. Oui.
Du coup, je pense que la meilleure solution, c’est une donnée privée accessible uniquement via un login Facebook connect (La création / gestion / automatisation de comptes Facebook en mass étant complexe).
Comment as-tu pu avoir du fil à retordre, si tu l’as résolu juste 30 minutes après? Ca semble un peu contradictoire
Quand il m’est arrivé de faire face à Distill Networks, j’ai laissé tomber: Impossible de passer outre, ils ont mis au point des algo de machine learning permettant de comparer les mouvements de souris, clavier, et autres interactions, par à rapport à des comportements naturels. et humains.
Si t’arrive à tuer ça en 30 minutes, t’es plus fort que Chuck Norris.
En fait oui Distill Networks m’a donné du fil à retordre car je ne m’attendais pas à me faire expulser autant et aussi vite d’un site avec mes algos. En fait je ne connaissais pas encore ce fameux service de Distill Networks.
Mais avec une bonne rotation d’IP et l’activation de toutes les features d’anonymisation / humanisation, ça passe à 100%. Le site manta.com l’utilise par exemple. J’ai crawlé +2M de pages sans problèmes.
Mais oui un truc qui me bloque 30 minutes alors que ça doit fonctionner, ça me donne du fil à retordre x)
J’imagine que comme Distill Networks, Google surveille ce qui se passe sur l’écran, depuis quelle IP, etc. Et comme c’est un script de Google, aucun soucis pour eux :L J’imagine que ça leur fait même une base de donnée de sites qui ont des données qui ne veulent pas être scrapées. Ça serait d’accéder à cette liste à l’avenir x)
Après en effet de toute façon le site accepte d’être scrapé via le fichier robots.txt normalement donc bon.
Je m’imiscie dans la discussion en changeant un peu le sujet (désolé) mais qui reste dans le theme :
Je serai curieux d’avoir des statistique sur vos bots histoire de connaitre un peu l’efficacité de ceux-ci.
J’ai fait un (tout petit) questionnaire d’a peine 5 questions. J’apprécierai grandement si vous pouviez y répondre !
La question que je me pose c’est surtout: comment tu fais pour humaniser et bypasser totalement la détection des mouvements souris et comportement user, sachant qu’ils se basent sur des centaines de milliers de comportements réels injectés dans leur algo de Machine Learning, et qu’il est impossible de reproduire de tels comportements avec du Phantom/Nightmare…
Je vais être franc avec toi, je ne sais absolument pas te dire la feature qui m’a permis d’outre passer leur sécurité. J’ai mis en place un scénario de rotation d’IP extrême, de la rotation de footprint user extrême également et des comportements de crawling « humanisés ».
Et tout ça date d’il y a peut être un mois et demi. Je suis en train de faire un gros upgrade de ma suite d’outils. Je verrais pour faire et uploader une vidéo en accélérée du process
A ce moment là, on pourra se faire un call pour en parler si tu veux et pour les autres intéressés idem.
Cet épisode remonte à 2-3 années en arrière, je n’avais même pas fait 5 requêtes que j’étais déjà bloqué. Malgré n’importe quelle fonctionnalité « extrême » de rotation d’IP + humanisation, cela ne servait à rien vu qu’ils ne semblaient pas prendre en compte ni l’IP ni le fait que je sois en mode browser JS.
Je pense qu’ils ont tout simplement différents levels de sécurité.
Après 8 années d’expérience, c’est la seule sécurité que je n’ai jamais pu passer.
Je réagis à votre échange sur Distill Networks.
Connaissez vous Datadome, startup « innovante » dans la detection de bots ?
Avez vous réussi à passer leur protection ?
Je serais intéressé d’avoir quelques avis de ceux qui ont pu y être confrontés et de l’analyse que vous pouvez en faire .
Sont présents sur LBC, ce qui rend quasi-impossible l’automatisation du browsing si on implémente une technique en full headless browser (de type Headless Chrome).