Bonjour, je cherche a scraper une annonce leboncoin, petit bémol je n’arrive pas a scraper le numéro de téléphone, celui-ci étant visible après avoir cliqué sur voir le numéro, j’ai essaye « element click » mais en vain.
Bonsoir,
Même si tu arrives à automatiser le clic sur numéro, tu verras qu’au bout de 4 affichages de numéro , en moins d’une minute, tu seras bloqué, et tu ne pourras plus obtenir d’autres numéros pendant plusieurs heures…
Salut, il te suffit d’utiliser un outil « image recognition » comme deathbycaptcha.com les numéros sur LBC sont inséré dans une image (c’est pour ca que tu ne le vois pas dans la source) que tu enverras sur deathbycaptcha.com via une API, qui décodera les chiffres ,par contre fait gaffe car si tu veux faire ça en version « scraping » tu auras besoin de pas mal de proxy, la protection fait que LBC bannit ton IP si tu fais trop de requêtes de numéros
Si je comprends bien il n’est donc pas possible de scraper une requête ajax ?
J’ai vue que d’autres sites utilisent ce même principe (louervite.fr), celui de faire apparaître le numéro via une requête ajax, ces sites possèdent-ils la même sécurité que lbc ?
Pour le scrap de tels en masse , LBC ne « regarde » que les ip et pas les UA… comme dit @ScrapingExpert , au bout de 4 queries/jour c est fini donc la cle est de faire des rotations massives de proxies.Du coup tlm aura compris le type de proxies adaptes et la marche a suivre…
Merci pour vos réponses,
Je suis encore novice en scraping serait-il possible de m’éclairer sur les différents moyens de scraper une requête ajax, je trouve peu d’informations à ce sujet sur internet.
J’ai déjà réussi à faire fonctionner un scraper leboncoin « at scale » avec un script en python, en utilisant la librairie selenium pour « mimer » les comportements d’un humain, en particulier simuler du scroll, le click sur le numéro,…
Effectivement, il faut implémenter des temps d’attente, faire changer les ip et user-agents.
A quoi bon faire des règles, si on ne les contourne pas?
Personne ne les respectent, enfin probablement les grosses boites davantage que les petites, qui ont peur de se prendre une prune.
Ce n’est pas parce que c’est « interdit », que tout le monde s’arrête de le faire, tu serais étonné de voir le nombre d’entreprises qui continuent ces pratiques…
Dans mon cas, la prune me fait peur… Et sur le long terme, je crains ne pas pouvoir fonder un business model sur ce mode d’acquisition… Et pourtant, c’est tentant ! L’envoi de SMS est très efficace. Dommage !
Tu n’es que le petit poucet dans une forêt immense. Pourquoi the big authority irait taper sur toi?
Regardons les choses de manière logique: si toi ou ton business débutaient, vous n’auriez quasi pas un rond. Pourquoi vous mettre une prune, si y’a pas d’argent à se faire sur votre dos?
Ne te fais pas d’illusion, ils iront toquer à la porte des grosses boites ayant beaucoup, beaucoup d’argent (du genre vraiment beaucoup).
En attendant, tu peux utiliser ces techniques de GH pour ton acquisition, travailler le qualitatif au fur et à mesure, cibler de manière plus précise sans faire du spam, et construire une base opt-in qui sera ton atout pour la suite. Si tu respectes des règles simples telles que laisser la possibilité au user de se désinscrire, tu n’auras pas de prob
Pour qu’on en arrive à porter plainte contre toi, faut vraiment que tu aies abusé, de manière répétitive.
Sous entendu l’annonceur t’aura déjà contacté, demandé d’arrêter, et tu n’aurais eu que faire de ses warnings…
Attention, je n’encourage personne à aller contre la loi. Je dis juste que tu peux faire les choses en restant correct, en franchissant la ligne gentiment, pas en mode « bourrin »
Mouai. Se dire qu’ils n’iront pas te chercher des poux parce que t’es une petite boite sur laquelle ils ne peuvent pas se faire de sous est un peu illusoire.
Il suffit de tomber sur un mec (ou un concurrent) qui t’as dans le pif et s’en est fini de ta boite.
Ca ne marche pas comme ça, il ne suffit pas de juste porter plainte pour que la CNIL te tombe dessus. Si on fait le parallèle avec HADOPI, on peut imaginer les difficultés qu’ils vont avoir à auditer des systèmes informatiques et à prendre la plainte en compte pour ensuite sanctionner, surtout si y’a pas d’argent à se mettre sous la dent. Ca je n’en démord pas, ça a souvent été comme ça…