Scraping leboncoin, qu'est-ce qui marche en 2019 avoir leur solution anti-bot?

@magicjo Serait-il possible d’avoir les numéros des particuliers avec l’api?

Hello @pierrot49 , oui c’est tout à fait possible, nous avons les numéros ainsi que d’autres informations. Nous avons optimisé de notre méthode de scrapping et à ce jour nous avons la solution la plus rapide du marché moins de 5 minutes entre la parution et l’enregistrement de l’annonce dans notre base de données. Je vous envoi un MP pour savoir comment nous pourrions vous accompagner :slight_smile:

la plus rapide du marché, carrément ! c’est une jolie promesse :grin:

2 « J'aime »

Ahah je vois qu’on a de la concurrence :D, mais tant mieux ! ça nous forcera à avoir un service de qualité :ok_hand:

2 « J'aime »

Notifan marche encore ?

il semble que ni notifan.fr ni immoji.fr ne marche encore :frowning:
Quelqu’un a t’il une solution ?

Merci

bonjour ! Notifan marche encore mais le service a été transformé : je propose maintenant du scraping de numéros de téléphones ou de données de Leboncoin en masse, plutôt orienté professionnels donc. Je ne propose plus la surveillance en temps réel pour les particuliers (sauf gros besoins)

Dommage c’était une bonne idée de proposer aussi un service d’alerte pour particuliers avertis… snif je dois me rabattre sur les alertes pourries de seloger et leboncoin. Il y a bien un peu de code sur github mais ça a l’air aussi dépassé. snif

Hello @Gzepr ,
Pour les mêmes raisons que Paul_Maylie, nous nous sommes concentrés sur les besoins de professionnels. Nous avons longtemps maintenu nos alertes pour particuliers mais aujourd’hui assurer un tel service tout en accompagnant notre croissance pour les pros devient très difficile. Nous avons donc préféré nous concentrer sur les pros :pray:
Ceci étant dit nous avons quelques particuliers qui ont souscrit à notre API, si c’est quelque chose qui peut t’intéresser je t’invite à me contacter en MP :slight_smile:

Je relance un peu la discussion car j’ai tenté mon propre code node.js avec puppeteer pour scrapper le bon coin. Malheureusement sans succès et je bloque. Voici où j’en suis :

  • J’utilise puppeteer-extra-plugin-stealth pour déjà une bonne dose de modifs ;

  • Je vire le webdriver

  • Je génère la bonne dose de plugins persos

  • J’installe bien les bonnes infos de langue, gfx, etc

Résultat, quand je scrape https://bot.sannysoft.com/ j’ai tous les indicateurs au vert. Idéal donc ? Et bien non, LBC me vire directement à ma première requête sur la page d’un résultat de recherche.

Aucune idée de ce que je dois retravailler à ce stade ? Pas besoin de proxy (j’ai déjà testé d’ailleurs) puisque je cherche à ce stade à scraper juste une fois le bon résultat.

Merci d’avance aux spécialistes ! Et que ceux qui proposent des solutions immo se rassurent, ce n’est pas pour scrapper des annonces immo :wink:

Si tu dois scraper en one shot, tu peux injecter dans ta requête le cookie de Datadome depuis ton navigateur, ça devrait fonctionner si tout est bon à coté. Ça vaut le coup de tester ! Pour du scraping en quantité et régulier, il faut trouver un moyen de générer ce cookie ou une assez bonne combinaison de tweaks sur ta façon d’envoyer ta requête pour ne pas éveiller Datadome.

1 « J'aime »

Oui c’est pour à terme automatiser une recherche récurrente. Du coup chercher du côté des tweaks. J’imagine que c’est en terme de mouvement de souris et autre stratégie ?

Personnellement je récupère une grosse quantité d’annonces et de numéros par jour et je n’utilise pas cette méthode, je génère plutôt des cookies valides pour faire passer mes calls. Je ne pourrais pas t’aider pour les mouvements/webdrivers, etc… car tout passe en requêtes simples.

Bonjour est-ce que tu peux partager avec nous comment faire des requetes simple avec des examples.

Merci d’avance

Salut ! Tu peux utiliser cet excellent tuto :Data Science Blog | Raphaël Courivaud

Pour éviter le blocage datadome sur de petites quantités de requêtes, tu peux injecter le cookie datadome de ton navigateur dans les cookies de ta requête, je te laisse regarder comment faire avec le module requests.

Je suis en train de finaliser et tester une API très simple pour ceux qui veulent scraper leboncoin sans se soucier de datadome, avec tout le bypass géré de mon côté. Elle prend en entrée une url et retourne un json complet avec toutes les annonces de la page, et pour les nums de téléphone elle prend en entrée l’ID de l’annonce et retourne le fameux numéro.

Si jamais ça vous intéresse, je pourrais la partager en test une fois que tout sera bien fini !

2 « J'aime »

Hello, at scale j’imagine que pour le numéro de téléphone tu navigues quand même sur la page pour le choper ? Ou tu arrives à générer le bon cookie direct et passer par l’API du téléphone ?

Je fais à 100% en requêtes, pas de webdriver/selenium, en générant des cookies valides Datadome

Effectivement ça marche bien :slight_smile: IPs résidentielles j’imagine ?

Une bonne partie sans proxies, et quelques datacenters pour débloquer les situations tendues quand il faut !

Bonsoir à tous,

j’ai fini l’API pour scraper leboncoin sans se soucier de Datadome (tout est géré côté serveur).
Vous trouvez toutes les infos sur http://notifanscraper.herokuapp.com/

Par exemple, pour récupérer les infos de la recherche Voiture d’occasion Toute la France - leboncoin, il faut appeler notifanscraper.herokuapp.com/search?url=https://www.leboncoin.fr/voitures/offres.
Même principe pour les numéros de téléphone avec l’id de l’annonce.

J’ai limité pour le moment /search à 1 requête/minute et /phone à 5/minute.

Je la laisse ouverte quelques heures/jours le temps de tester, si vous avez des feedbacks n’hésitez pas. Je ne suis pas dév de métier ni de formation et je cherche un moyen pour sécuriser et restreindre l’API aux utilisateurs identifiés uniquement, si certains ont des outils je suis preneur et dispo pour en discuter !

image

2 « J'aime »