Scraping leboncoin, qu'est-ce qui marche en 2019 avoir leur solution anti-bot?

Bien joué !
De mon côté Pygoo.fr et Pyget.fr tourne toujours :wink: et commence à avoir une bonne base d’utilisateurs, ça commence à faire beaucoup de requêtes par jour :smile:
C’est pas simple de faire du scraping en temps réel avec Leboncoin mais c’est faisable :+1:
Bravo pour ta solution @practagarus

@Neeko Merci tu as pu tester https://nimobi.fr ? J’aimerai bien avoir ton avis dessus :slight_smile:
Tu as réussi à faire partir quelque uns de mes users qui m’ont fait un feedback ils ont l’air contents. Bravo à toi! Mais attention je vais les faire revenir, c’est qu’une question de temps :stuck_out_tongue:

@nico30000 Rotation d’ips et espacer un peu les requêtes. Sinon c’est pas normal que tu sois bloqué au bout de seulement 2 requêtes.

1 « J'aime »

Hello , As tu une version équivalente a nimobi pour les autres catégories ( ex: véhicules ) … je serai intéressé .
Merci

1 « J'aime »

Pour les petits besoins il vaut mieux utiliser un système de scraping dans ton navigateur (type extension). Pour le scraping de masse, puppeteer bien configuré & de bons proxy reste imbattable, bine que plus chers (mais faut savoir ce qu’on veut).

Je récupère 80% de LBC pour mes clients comme ça, datadome me pose aucun soucis.

De toute façon, puppeteer (ou de façon général le headless) et de bons proxy (qui coûtent chers) est la solution ultime du crawling, et est pour le moment impossible à bloquer.

Très peu de site (européen) mettent en place des techniques ultra poussée (et encore plus chers à contrecarré) comme c’est le cas pour les sneakers par exemple (qui est un marché de prospection avant même qu’une paire sorte).

2 « J'aime »

@clementoo C’est dans la roadmap mais pour l’instant je focalise sur l’immobilier. Quand tout sera rodé je passerai aux autres catégories.

J’ai aussi un bot LBC qui marche bien, j’ai longuement hésité en faire un SaaS comme vous @practagarus @Neeko @magicjo.
Mais les risques juridique m’ont clairement ralenti.
Vous craignez pas que LBC vous attaque en justice dans le cas où vos projets se mettent à générer vraiment beaucoup de traffic ?
Selon moi le seul moyen d’être tranquille avec un SaaS de ce genre est d’avoir une structure juridique et financière offshore mais faut vraiment être déterminé.
De mon côté si je me met à vendre la solution je pensais plutôt à faire un truc fermé en allant chercher les clients IRL, j’imagine que c’est ce que tu fais @raz101 ?

2 « J'aime »

Il y a plusieurs jurisprudence sur ce sujet, notamment d’un point de vue européen. Si tu transforme suffisament les données, et que tu ne scrapes rien de privé (demandant de créer un compte, ou dont l’user à spécifiquement dit qu’il ne souhaités pas la réutilisation, etc…), ou que tu changes le contexte des données (méta moteur inter website par ex) tu ne crainds rien, en tout cas à l’instant T, faut voir comment la situation évolue.

Et puis, pense bien qu’à ton échelle, le scraping de données des centaines de comparateurs (vols, hotels, etc…) est bien plus important que le tiens.

De mon côté j’ai un site commercial, mais pas identifié LBC, plutôt généraliste. Pleins d’acteur existent déjà pour LBC, et à part le fait que tu sois moins chers, ai un bon réseau ou ai une offre à réelle valeur ajoutée, c’est un marché un peu bouché, ce que n’ai pas (encore tout du moins) le scraping généraliste.

2 « J'aime »

@raz101 a plutôt bien résumé la situation actuelle d’un point de vue légal.
Immoji est pensé comme un aggrégateur, et en ça on ne fait qu’indexer des pages comme un moteur de recherche le ferait. Lorsqu’une personne clique sur un de nos liens il est redirigé vers la plateforme d’origine. Bien sûr cela n’empêcherait pas SeLoger ou LBC de nous mettre des bâtons dans les roues. Pour le moment on est en mode « tant qu’ils ne grondent pas on fonce » . Plusieurs boîtes (loueragile, teddi.co etc…) ont adopté la stratégie du « clos » / « fermé », ils promettent d’envoyer des annonces dès qu’elles apparaissent sur des « centaines de sites ». Ce n’est pas dit implicitement, mais tout le monde sait qu’ils scrappent les grandes plateformes immobilières et pour le moment sans être inquiétés. Donc tu peux très clairement t’en inspirer :smiley:

2 « J'aime »

Bonjour !

J’aurais aimé savoir qu’est ce que vous appelez de bons proxy ? Notamment @raz101 si t’en as à conseiller et que pensez vous des services de proxies comme crawlera ?
Super intéressant comme sujet ca donne déjà quelques pistes à suivre :grinning: :+1:

Merci et bonne journée à tous

@owendittmer Perso je suis pas encore décidé sur ce point. Je peux très bien opérer en mode privé, mais je me dit aussi que en principe indéxer des annonces immo (rien de privé comme dit @raz101) on devrait être safe. Je ne suis malheureusement pas expert en la matière pour juger.

Au pire, je fait de la vente de proxy optimisé pour lbc :smiley:

1 « J'aime »

Un bon proxy est un proxy qui correspond à ton besoin. Bon réponse inutile mais réelle.
De notre côté un bon proxy est un service qui a un taux de succès > à 85% selon nos besoins.

Crawlera est pas mal tant qu’il n’y a pas de grosse protection sur les sites sources.
On a un très gros abonnement chez luminati.io qui est le meilleur service à mon sens, mais aussi le plus chers (si vous créez un compte demandez moi mon lien affilié tant qu’à faire hihi).

Au final, on réduit de plus en plus nos services de proxy, on passe tout sur luminati qui, bien configuré, donne des taux de succès > 95%, et pour nos requêtes en big data c’est pas négligeable ce +10%.

Pour d’autres services on utilise aussi stormproxy par exemple. Et un autre vieux services utilises des proxy gratuits via une solution maison pour récupérer des proxy à travers les multiples sites de listing.

Donc, pour en revenir à ma phrase initiale, si ça ne te dérange pas de faire 3/4 retry sur une URL pour avoir l’info, un service proxy avec un faible % de succès (et généralement moins chers) te suffira largement.

4 « J'aime »

Bonjour à tous,
Je suis cette discussion très intéressante depuis un moment j’aimerais avoir votre avis sur une question, j’aimerais automatiser une action en cron (à intervalle régulier, tout les jours), mais pour cela je dois être identifié, j’ai compris qu’a l’authentification l’api nous redirige vers une page intermédiaire (datadome ? qui sort un flag si elle ne détecte pas javascript) puis sur une page d’ authorization du token avant de nous redirigé sur la home et de set un cookie nommé « luat » qui contient la clé qui sera passé en bearer sur les call api.
C’est cette partie que je n’arrive pas à automatiser j’ai essayer selenium(patché) en chrome headless, pupeeter, phantomJs,bypassé en interrogeant différent point d’api mais rien ne fonctionne, si quelqu’un a une solution je suis preneur :slight_smile:
Merci et bonne journée à tous

Merci pour cette réponse !
Je vais tester la période d’essaie, j’hésiterais pas pour le lien d’affilié :slight_smile:

Hello, j’ai également ma solution en Python, on peut en discuter ?

2 « J'aime »

Avec plaisir, mp ?

Hello @magicjo concernant les IPs de datacenter, à 100$/mois, tu trouves ça ou ? :innocent: (merci)
Sinon, si tu as 5 minutes, j’aimerais bien te présenter une approche que l’on utilise pour avoir ton avis et partager nos expériences :upside_down_face:

Hello @Xitoo,

Pour les ips de datacenter, tu as luminati (https://luminati.io/pricing/proxy-network) qui est un bon proxy provider avec un bon rapport qualité-prix ! Après tout dépend du volume de données que tu vas scrappé ^^
Chaud pour échanger sur les approches, je suis dispo demain si tu veux idéalement entre 12h et 12h30 ou vers 14h :slight_smile:

@magicjo Merci pour le retour, je vais regarder ça ^^
Top pour demain vers 14h, par contre, impossible d’envoyer un MP ici #needhelp

Par contre j’ai qq meetings cet aprèm avec des dates d’échéance floues, j’ai peur de ne pas pouvoir être dispo pour un call :/, désolé
Si ça peut attendre demain fin d’après midi, sinon aujourd’hui à 14h par message …

Finalement une de mes réunions a finit plus tôt que prévue, si t’es dispo :), je suis libre jusqu’à 15h30