Changer de fingerprint pendant un scraping

Bonjour,

Quand on scrap certains sites (Google par exemple), il semble que le site detecte mon fingerprint, c’est a dire un truc plus bas niveau que le user-agent. Car j’ai beau changer mon IP et mon user-agent, je continue de me faire flag. Je scrap avec Puppetteer. Vous avez des idees ou des recos pour changer le fingerprint et arriver a bypasser la protection ?

Tu as d’autres headers HTTP qui peuvent être utilisés pour construire le fingerprint, tu devrais les faire varier également.

Hello @Maud_Mhk

Il y a pleins de facteurs

  • headers
  • proxies/ips
  • tls/http handshake

Je te renvoie vers ce tutoriel Python, qui permet de contourner le TLS/HTTP fingerprint sur doctolib.com

NB: d’expérience sur google ça va être surtout lié à ton adresse IP et ta vitesse de requête

:mask:

Pour améliorer ton scoring il faut se mettre dans la peau d’un user « normal »

Si tu veux aller encore plus loin, utilise l’option de lancement --user-data-dir pour conserver les données entres les crawls, si ton navigateur est blindé de cookies cela passera mieux

Autre tip que j’utilise de tant en temps, installe aléatoirement des extensions chrome au lancement pour te fondre dans la masse (adblock, ublock, lastpass, gramarly, des trucs randoms du chrome store, …)

Pour les scraping plus avancés, voire de véritables bots, mets des temps de pause random entre tes actions, scroll la page, clique sur des liens, les pubs, …

3 « J'aime »