Robot leboncoin envois mail automatique

Est-ce qu’un des principaux critères de détection des bots ce sont les mouvements de la souris (je veux dire quels sont les paramètres qui ne sont pas ou sont difficilement simulables) ? @ScrapingExpert

Yop Boris !

Honnêtement, c’est difficile à dire. Je sais que DistilNetworks le faisait, en comparant les mouvements et actions users à ceux d’une énorme base de données d’interactions, via algorithmes de machine learning. C’est probable j’imagine, sans pouvoir l’affirmer.

Pour ce qui est des paramètres ou choses difficilement simulables, il y a les tests/challenges Javascript qui s’exécutent dans le contexte du navigateur, ils peuvent changer du tout au tout d’un site à un autre, ce qui rend difficile leur détection et leur contournement car jamais les mêmes…(il ne s’agit pas d’avoir juste un headless browser pour faire le job, malheureusement)

Hello, tout le monde, merci pour tous vos échanges, je suis actuellement confronté à la même problématique que vous, et c’est vrai que c’est assez étrange le comportement du bon coin. J’essaye de contourner le recaptcha avec anti-captcha et datadome et ce n’est pas non plus tâche aisée, si je trouve une solus on peut peut être se partager ça.

Tu es sur quel mode de fonctionnement pour ton bot? Du sélénium ? headless browser type chrome? ou du pur script type python ?

je me situe plus sur du script pur python avec scrapy.

Salut,
Certes LBC a renforcé les choses mais il est toujours possible d’automatiser les recherches et autres actions avec leur API. Perso j’ai développé un script en bash et un autre en python pour « parser » le résultat et me sortir le tout en RSS que j’envoie sur un site perso, ça me permet de choper les annonces à intervalle régulier que je consulte avec Inoreader. On verra si mon adresse ip se faire bannir. J’ai vais en douceur.
Mais leur application sur Android envoi aussi des mails et des notifications. A vous de choisir

Je suis confronté a la même problématique avec datadome en voulant passer par leurs API mobile, impossible de récupéré le premier token datadome qui permet de communiquer avec l’api pour l’authentification …

La solution datadome se met en place petit à petit. Si quelqu’un est intéressé par un script d’envoi de mail fonctionnel, MP :wink: (ping @fm850)

3 « J'aime »

+1

Ce Thread résume mon WE de galère. A noter qu’il n’y a pas de souci pour scrapper LBC en local avec Headless à False. C’est pas très élégant mais ça fonctionne.

Par ailleurs, je vais regarder les appels API sur l’App mobile avec Charles. C’est une bonne piste.

Salut
Sinon aspirer les mails des annonces contenants un mail. Ce qui représente environ 15% des annonces. C’est toujours mieux que rien.

1 « J'aime »

A ma connaissance, l’unique approche pour leboncoin devenu parano est luminati.io, api plutôt easy.

Salut,
Je suis tout nouveau sur le forum et je m’intéresse aussi à tout ce qui concerne datadome. J’aimerais bien avoir un retour de vos expériences sur cette solution. Personnellement je passais par des solutions basiques Requests/Curl en python, j’ai pas encore essayé du headless et Selenium mais avez vous réussi à passer cette solution? J’ai accès à des IP rotatifs donc de ce côté là je peux me faire plaisir. Si vous avez un Telegram je suis chaud patate !

D’ailleurs vu que tu parles d’IP rotatifs, tu conseils quel service d’IPs ?

Luminati est vraiment le must. Residential IP où tu sélectionnes les pays qui t’intéressent, aucun soucis rencontrés avec ceux proposés, tu payes une partie aux paquets donc rien du tout si tu évites le Sélénium et que tu tapes directement dans les bonnes requêtes. (les échanges de Json etc…).
Mais ce n’est pas moi qui gère le contrat luminati, je ne peux pas te donner un ordre de grandeur.

Merci pour ta réponse, mais à titre d’exemple tu payes combien par mois pour combien de requêtes environ?

Comme je te l’ai dit, je ne gère pas cette partie là, je ne fais que l’utiliser et je sais que c’est la meilleure solution trouvée par celui qui s’en occupe.
Désolé.

Les prix de luminati sont disponibles sur leur site. En effet c’est très bien, assez difficule à prendre en main et i ly a des subtilités. Tu peux être facturé au giga ou au nombre d’ips ça dépend des forfaits.

Il y a aussi un bon support très réactif via skype qui peut te renseigner sur les solutions proposées et autres questions plus techniques. Tu as un monitoring de tes dernières requêtes etc…

De mon côté j’ai essayé d’accéder à une annonce du site via Browserless.io (qui fait tourner un puppeteer) + un proxy Luminati mais je suis bloqué par une page de recaptcha servie par Datadome.

Pas étonnant, car leur Puppeteer lance une instance de chromium en mode full headless , et ça Datadome le détecte directement…

Sinon, j’ai testé Luminati , avec Nodejs + request, ou même node-fetch, mais impossible de faire des requêtes vers URL en HTTPS, j’obtien un long message d’erreur de type:

" RequestError: Error: tunneling socket could not be established, cause=read ECONNRESET "

Quelqu’un sait faire tourner un script en Nodejs pour requêter avec les proxys Luminati sur du HTTPS sans avoir ce problème?