Robot leboncoin envois mail automatique

fm850 · Juin 30, 2018, 12:54

hello
Je souhaiterais envoyer des mails automatiquement a une certaine catégorie sur des annonces leboncoin.

Je cherche un développeur ayant les compétences de faire ce type de robot

j’en avais déjà un dans le passé, mais je pense qu’il ne fonctionne plus

il faudra bien entendu prendre en compte le blocage de leboncoin avec un vpn ou proxy

ScrapingExpert · Juillet 4, 2018, 8:17

LBC est devenu excessivement fort pour contrer ce type d’initiatives.

Malgré les nombreuses mesures à mettre en place auxquelles on pourrait penser (Proxies x 1 000, rotation de user-agent, humanisation du bot au niveau des interactions avec la page web, création d’autant d’adresses emails authentiques qu’on utilise d’IPs, etc), ils parviennent toujours à bloquer, et ce sans qu’on le sache (on peut toujours recevoir une copie du message envoyé sur son email sans jamais que le vrai destinataire ne le reçoive).

A ce jour, pas de solution fonctionnelle à ma connaissance.

ksahin · Juillet 4, 2018, 8:33

@ScrapingExpert

Peut être qu’ils mettent des flags sur les blocs d’IPs provenant de data-center ?

A part ça, je ne vois pas comment ils peuvent détecter qu’un message provient d’un bot, si tout a été randomisé comme tu le décris, utilisation de chrome en mode headless (donc quasi impossible a discerner d’un « vrai » chrome).

ScrapingExpert · Juillet 4, 2018, 8:47

C’est assez basique en vérité, en recordant et en comparant toutes les interactions des users avec leur interface, et en utilisant ces données dans un algo de machine learning, ils peuvent facilement détecter que le bot ne se comporte pas de manière humaine (les mouvements de souris, les temps entre chaque action comme par exemple les délais entre chaque frappe de touche, etc, ne sont pas les mêmes, trop linéaires, pas assez « imparfaits »).

Il existe à ce jour des solutions telles que Distill Networks, capables de mettre ça en oeuvre.

ksahin · Juillet 4, 2018, 8:59

Tu es sur de ton info ou tu supposes ?
Il me semble qu’il est possible de soumettre un formulaire en desactivant le JS sur le bon coin ? Donc tout ça tombe a l’eau du coup.

Autre question, pourquoi n’est-il pas possible d’utiliser l’API de l’application mobile ?

ScrapingExpert · Juillet 4, 2018, 9:14

C’est davantage une déduction faite par expérience, car il ne s’agit pas que de gentiment faire tourner des proxies pour pouvoir contourner des mesures anti-scraping.

Ces puissants algo sont capables d’enregistrer une empreinte numérique pour chaque bot/user, et de déterminer dans quel camp ce dernier se situe.

Ca ne tombe pas à l’eau pour les 3/4 des personnes qui ne pensent jamais à désactiver le JS. Bien sûr si on le désactive et que ça fonctionne, c’est une autre histoire, et une excellente nouvelle (mais je trouverais ça assez bizarre qu’ils ne s’inquiètent pas de nombreuses requêtes d’envois de messages provenant de browser avec JS désactivé, c’est un peu trop suspicieux).

Reste toujours le problème des adresses emails à faire tourner, le contenu des messages également, sinon on risque rapidement un blacklistage. Sans oublier de privilégier une adresse email utilisée par IP, et éviter de diffuser le même message depuis des IPs différentes.

Il était possible d’utiliser l’API de l’appli mobile il y a un peu plus d’un an, après il y a eu des changements, je n’ai pas re-testé depuis mais la piste est à étudier.

ksahin · Juillet 4, 2018, 9:33

Yes je vois !

Après pour ces fameux « puisants algo », il y a plusieurs choses que j’aimerais ajouter:

En vrai c’est 100x plus compliqué qu’il n’y parait, à cause des faux positifs.

Par exemple, au début de Recaptcha v2, beaucoup de gens pensait que Google utilisait l’accélération du clic et calculait un scoring à partir de ça. Et puis on a fait des test et il se trouve qu’il n’en est rien. Ni ça, ni de restriction par IP.

Il y a eu plusieurs rapports et études faite sur Recaptcha, en voici un exemple:

Après ça date de 2014, et ils font des changements en permanence, la vulnérabilité au cookie a été fix depuis. Mais tout ça pour dire que c’est extrèmement compliqué de faire du scoring, et il y a toujours moyen de battre le système

Et pour ceux qui ont cette problématique sur LBC, vraiment, essayez de passer par l’API de l’application mobile.
La pluspart du temps c’est très simple, le seul problème c’est lorsqu’une fonctionalité du site web n’est pas implémenté dans la version mobile.

Pour inspecter les requêtes et faire du « reverse-engineering » sur l’app mobile, je vous conseille d’utiliser https://www.charlesproxy.com/ c’est un reverse-proxy qui va vous permettre d’inspecter toute les requêtes de l’app, y compris HTTPS (via un root certificate a installer sur son device).

Avec ça et les excellents conseils de @ScrapingExpert il n’y a pas de raisons que ça ne marche pas !

En tout cas ce sont des challenges intéressants !

ScrapingExpert · Juillet 4, 2018, 9:51

Ton discours positif fait du bien, j’avoue parfois être un peu démoralisé car ça devient « chaud patate » à contrer.

Concernant la partie reverse-engineering pour les app mobiles, j’utilise « Packet Capture » (dispo sur Android, je ne sais pas pour Apple), c’est vraiment pas mal, c’est complètement similaire à Charlesproxy (jamais testé encore). Peut être que Charles proxy est mieux

Par contre, il convient de prendre toujours mes conseils avec un esprit critique, je suis loin d’être le meilleur et j’ai encore beaucoup à apprendre sur les techniques à mettre en oeuvre, j’imagine que si j’étais en team avec quelqu’un comme @ksahin on deviendrait imbattable

ScrapingExpert · Août 20, 2018, 4:34

@ksahin: pour rester sur ce fil qui concerne LBC, as-tu fais l’expérience de la protection qu’ils ont mis en place par l’intermédiaire de la solution Datadome?

Evidemment, passer par l’API de l’app mobile permet d’éviter ça, mais je voulais savoir si tu avais eu l’occasion de t’y frotter, et de les contourner?

SashaLobstr · Août 21, 2018, 12:46

Hello, @fm850

Je ne connais pas les techniques utilisés par mes confrères,
mais nous sommes personnellement capables de réaliser un envoi massif…

Au plaisir d’en discuter avec toi.

Okn · Août 22, 2018, 9:38

Salut, je suis dans la même galère que toi, plus aucun de mes scripts ne fonctionnent sur lbc, là ils ont fait fort.
Je suis directement redirigé vers une page de verif anti robot de google.
Comment fait-tu pour passer par l’API de l’app mobile ?

ScrapingExpert · Août 22, 2018, 11:38

@Okn: il te faut passer par des applications de type CharlesProxy afin d’intercepter et analyser les paquets de données qui transitent par l’appli LBC, tu pourras ainsi repérer quelles requêtes d’API elle utilise : )

@SashaLobstr: tu n’as eu aucun soucis de blocage, captcha, via Datadome sur LBC?

SashaLobstr · Août 22, 2018, 4:22

@ScrapingExpert, si si effectivement.

Pour les captchas, il existe pas mal de service de gestion de captchas à distance :
https://anti-captcha.com/ entre autres !

Si c’est un simple captcha, un OCR peut faire l’affaire, un article de blog à ce sujet :
https://lobstr.io/index.php/2018/07/10/comment-contourner-captcha-pytesseract/

ScrapingExpert · Août 23, 2018, 8:32

Je me demandais à ce sujet, malgré que l’on puisse résoudre ce problème des captchas, à force qu’ils nous soient présentés souvent et qu’on les résolve automatiquement, est-ce qu’on ne risque pas d’attirer trop l’attention…

ksahin · Août 23, 2018, 8:47

@ScrapingExpert Non je n’ai pas eu l’occasion de m’y frotter Mais de ce que je me souviens, ils injectait un cookie dans ton navigateur, et envoyait ce cookie sur chaque appel API sur la version web. Je suppose que l’injection de ce cookie est faite après un test de fingerprinting sur ton navigateur, à voir si ça fonctionne avec headless chrome.

Si c’est le cas ça se contourne facilement.
En tout cas j’avais fait des requêtes a l’API en envoyant ce fameux cookie (celle dont j’avais parlé sur un autre thread), et on pouvait récupérer jusqu’a 100 items par requête.

vincen · Août 26, 2018, 6:40

Hello à tous,

Je viens de relancer mon vieux scrapper qui ne marche plus non plus pour récupérer les infos d’annonces (j’avais un 2nd batch qui remplissait automatiquement les formulaires).

Je m’étais pas fouler à l’époque je scrappais en php avec un bon petit curl Sauf que … comme les headless browser en python, ca ne marche plus avec Datahome. Je reçois un message d’erreur " You have been blocked#cmsg // Please enable JS and disable any ad blockervar dd="

Si je comprends bien, après avoir regardé un peu ce qu’il se passe en console, datadome fournis un cookie après avoir checké l’emprunte du navigateur qui permet d’accéder au site.

Je suis entrain de voir si je peux récupérer ce cookie et l’injecter directement dans mon scrapper pour bypasser ça. Ca semble un peu simpliste pour fonctionner nope ?

J’ai un test en cours avec le plugin webscrapper et ca semble tourner correctement.

Je vais m’intéresser à l’accès direct à l’API. Mais je contact ensuite par email à travers LeBonCoin.
je suppose que je vais donc devoir travailler particulièrement les entêtes pour bypasser toutes ces nouvelles protections…

ScrapingExpert · Août 27, 2018, 10:13

Je suis en train de penser que ces personnes qui travaillent sur ces protections, lisent certainement nos messages ici, ne leur donnons pas trop d’indices les aidant à nous contrecarrer, car c’est clairement du pain bénit pour eux …

vincen · Août 27, 2018, 11:43

C’est l’inconvénient d’un forum ouvert, mais le but de la communauté.
Tu préconiserais un autre moyen d’échanger ?

SashaLobstr · Août 27, 2018, 1:13

Telegram ?

HaricotVert · Août 29, 2018, 8:04

Je viens de test avec leurs api mobile (rien de concluant…), j’attend la création du Telegram ou je pose mes questions directement ici ?