Techniques d'évasion

Bonjour à tous,

Je scrape pas mal de sites d’annonces immobilières (Seloger, Leboncoin, Superimmo, Logicimmo, Bienici, …) mais j’ai un success rate assez faible.

Je suis bien conscient de ne pas avoir les meuilleurs proxies qui existent, j’ai éssayé différents services sans jamais être réellement satisfait. Si vous en avez à me conseiller je suis preneur !

Je me doute que l’autre partie du problème sont les techniques d’évasions que j’emploie.
Pour ça je ne m’embête pas trop. J’utilise des navigateurs virtuels Chrome grâce à puppeteer et pour ce qui est des techniques en elles mêmes j’utilise puppeteer-extra-plugin-stealth que je maintient à jour.

Est ce qu’il existe des techniques plus avancé afin de bypass les sécurités de ces sites ?

Merci à vous

pourquoi n’utilisez-vous pas les requêtes pures ? c’est beaucoup plus rapide :wink:

La question n’est pas vraiment à propos de la vitesse…

Pour les proxys je dirais proxy6.net, IP dédiée, de qualité, plusieurs pays dispo dont la France et 1,35$ par mois par proxy de mémoire.

Pour la technique d’évasion, faut voir avec Michael Scofield sinon aucune idée :sweat_smile:

1 « J'aime »

Salut Thomas, deja merci pour toutes interventions, j’ai plusieurs fois suivit tes conseils.

j’ai besoin pour la 1er fois d’utiliser un proxy pour scrap linkedin, je suis allé voir du coté de http://proxy6.net/
Il faut prendre un proxy IPV6 ou IPV4 ? Car il n’on plus de IPV6 en stock pour la France. Puis je prendre un proxy en IPV4 ?

Je crois que c’est ce que je prenais

puppeteer-extra-plugin-stealth est génial, mais reste plus ou moins détectable suivant l’OS utilisé. L’idéal c’est d’être sur un environnement linux, c’est là où j’ai eu les meilleurs résultats.

Attention également au headless, avec et sans change totalement la détection.

Un type talentueux avec du temps a créé un projet pour démontrer que puppeteer restait quoi qu’il arrive détectable. Je te recommande donc de faire tous tes tests sur sa page test : CreepJS

Il te liste les tests et les erreurs qu’il détecte.

Tu peux aussi utiliser d’autres outils comme :

La première détection étant l’ip, il faudra utilisé de bons proxy résentiel ou un vpn et trouver des solutions de résolution de captcha. Les résolutions de captcha donnent un cookie souvent valable uniquement pour l’ip où le test a été réalisé et avec le naigateur utilisé.

Je rejoins @amnay, la bonne méthode est de récupérer le cookie de ses sites et de taper directement l’api derrière et non le crawl de chaque page. Tu retrouveras le infos de chaque api en inspectant la page puis dans network/réseau puis fetch/xhr et en inspectant les headers et body envoyés.