Scraper numéros leboncoin


#1

Bonjour, je cherche a scraper une annonce leboncoin, petit bémol je n’arrive pas a scraper le numéro de téléphone, celui-ci étant visible après avoir cliqué sur voir le numéro, j’ai essaye “element click” mais en vain.

J’espère vraiment que quelqu’un peut m’aider.

Cordialement


#2

Bonsoir,
Même si tu arrives à automatiser le clic sur numéro, tu verras qu’au bout de 4 affichages de numéro , en moins d’une minute, tu seras bloqué, et tu ne pourras plus obtenir d’autres numéros pendant plusieurs heures…


#3

Bonjour,

Merci pour votre réponse, et si j’utilise un script avec nodejs ou scrapy il n’est pas n’ont plus possible d’éviter cette sécurité ?


#4

Salut, il te suffit d’utiliser un outil “image recognition” comme deathbycaptcha.com les numéros sur LBC sont inséré dans une image (c’est pour ca que tu ne le vois pas dans la source) que tu enverras sur deathbycaptcha.com via une API, qui décodera les chiffres ,par contre fait gaffe car si tu veux faire ça en version “scraping” tu auras besoin de pas mal de proxy, la protection fait que LBC bannit ton IP si tu fais trop de requêtes de numéros


#5

Les numéros de LBC ne sont pas insérés dans une image, il s’agit de numéros récupérés via une requête AJAX…

De plus, deathbycatpcha n’est pas un service d’image recognition (OCR) mais un service de résolution de captcha, effectué par des Indiens…


#6

Si je comprends bien il n’est donc pas possible de scraper une requête ajax ?
J’ai vue que d’autres sites utilisent ce même principe (louervite.fr), celui de faire apparaître le numéro via une requête ajax, ces sites possèdent-ils la même sécurité que lbc ?


#7

C’est possible de scraper des données qui proviennent de réponses de requêtes AJAX.

Mais concernant LBC, il est question de faire tourner les IPs, les user-agents, et autres paramètres…

Ces autres sites qui possèdent le même principe n’ont pas forcément tous les mêmes mécanismes de protection, il faut anaylser au cas par cas.


#8

Pour le scrap de tels en masse , LBC ne “regarde” que les ip et pas les UA… comme dit @ScrapingExpert , au bout de 4 queries/jour c est fini donc la cle est de faire des rotations massives de proxies.Du coup tlm aura compris le type de proxies adaptes et la marche a suivre…


#9

Merci pour vos réponses,
Je suis encore novice en scraping serait-il possible de m’éclairer sur les différents moyens de scraper une requête ajax, je trouve peu d’informations à ce sujet sur internet.


#10

J’ai déjà réussi à faire fonctionner un scraper leboncoin “at scale” avec un script en python, en utilisant la librairie selenium pour “mimer” les comportements d’un humain, en particulier simuler du scroll, le click sur le numéro,…
Effectivement, il faut implémenter des temps d’attente, faire changer les ip et user-agents.


#11

A quoi bon scrapper LBC pour obtenir des numéros ? Il est interdit de contacter les annonceurs à cause du RGPD, ce règlement idiot…


#12

A quoi bon faire des règles, si on ne les contourne pas?

Personne ne les respectent, enfin probablement les grosses boites davantage que les petites, qui ont peur de se prendre une prune.

Ce n’est pas parce que c’est “interdit”, que tout le monde s’arrête de le faire, tu serais étonné de voir le nombre d’entreprises qui continuent ces pratiques…


#13

Dans mon cas, la prune me fait peur… Et sur le long terme, je crains ne pas pouvoir fonder un business model sur ce mode d’acquisition… Et pourtant, c’est tentant ! L’envoi de SMS est très efficace. Dommage !


#14

Tu n’es que le petit poucet dans une forêt immense. Pourquoi the big authority irait taper sur toi?

Regardons les choses de manière logique: si toi ou ton business débutaient, vous n’auriez quasi pas un rond. Pourquoi vous mettre une prune, si y’a pas d’argent à se faire sur votre dos?

Ne te fais pas d’illusion, ils iront toquer à la porte des grosses boites ayant beaucoup, beaucoup d’argent (du genre vraiment beaucoup).

En attendant, tu peux utiliser ces techniques de GH pour ton acquisition, travailler le qualitatif au fur et à mesure, cibler de manière plus précise sans faire du spam, et construire une base opt-in qui sera ton atout pour la suite. Si tu respectes des règles simples telles que laisser la possibilité au user de se désinscrire, tu n’auras pas de prob :slight_smile:


#15

Merci infiniment pour ce message encourageant. Et si un annonceur du bon coin porte plainte auprès de la CNIL ? :thinking:


#16

Pour qu’on en arrive à porter plainte contre toi, faut vraiment que tu aies abusé, de manière répétitive.

Sous entendu l’annonceur t’aura déjà contacté, demandé d’arrêter, et tu n’aurais eu que faire de ses warnings…

Attention, je n’encourage personne à aller contre la loi. Je dis juste que tu peux faire les choses en restant correct, en franchissant la ligne gentiment, pas en mode “bourrin” :slight_smile:


#17

Oui, bien sûr, tout cela est juste mais même un SMS, sans consentement, c’est interdit. Il a le droit de porter plainte…


#18

Mouai. Se dire qu’ils n’iront pas te chercher des poux parce que t’es une petite boite sur laquelle ils ne peuvent pas se faire de sous est un peu illusoire.
Il suffit de tomber sur un mec (ou un concurrent) qui t’as dans le pif et s’en est fini de ta boite.


#19

Ca ne marche pas comme ça, il ne suffit pas de juste porter plainte pour que la CNIL te tombe dessus. Si on fait le parallèle avec HADOPI, on peut imaginer les difficultés qu’ils vont avoir à auditer des systèmes informatiques et à prendre la plainte en compte pour ensuite sanctionner, surtout si y’a pas d’argent à se mettre sous la dent. Ca je n’en démord pas, ça a souvent été comme ça…


Team : CamilleBriceJulienVivianBorisXavierSteven.