Scraping leboncoin, qu'est-ce qui marche en 2019 avoir leur solution anti-bot?

RGPD je sais pas,
Mais c’est illégale en regard des conditions du bon coin, et du fait qu’un jugement en 2017 les a rendu éditeurs de leur base de données = ils ont la propriété intellectuelle = scrapper is illegal.

Mais bon, faut se faire choper, et tout dépend du préjudice subi …

Regardes les condamnations qu’ils ont obtenus contre entreparticuliers.com.

1 « J'aime »

Bonjour,
En fait, j’ai commencé à utiliser les proxy free et public mais je trouve que c’est un peu trop long et que c’est pas vraiment une bonne solution pour « scraper » un site.
Du coup, comment choisir un proxy? ou tout simplement, c’est quoi à votre avis la solution équivalente.
I’m open to all suggestions.
Merci :slight_smile:

Also, je me demande si vous avez une solution pour les numéros de téléphone ?

Bonjour @Kev1
J’ai quelques problèmes avec Zennoposter et la solution antibot de LBC. J’ai lu que tu t’en étais débrouillé, si tu as un peu de temps pour m’aider, peux-tu me contacter par MP ? (nouvel inscrit, j’ai l’impression que n’ai pas la possibilité de t’envoyer un MP)

Merci :slight_smile:

Bonjour,
Qu’est ce que tu entends par « un bon rotating ip » en terme de volumes ?
J’essaye d’évaluer le nombre d’IP nécessaires (et donc le prix à y mettre) en fonction du nombre de pages lbc à scrapper, mais je n’ai aucune idée de l’ordre de grandeur.

Autrement et simplement dit, combien de pages par jour peut-on scrapper avec une IP sans risque de se faire griller ? 100 ? 1000 ?

Un humain qui passerait 5h de sa journée à ouvrir une page par minute tournerait à 300 pages/jour donc j’imagine que 100 passent largement mais 1000 c’est moins sûr.

Merci d’avance

Je ne suis pas forcément d’accord avec la ‹ simple › rotation d’IP proposé par @Lolo13, mais je pense qu’il le remarquera assez rapidement dès qu’il voudra scrapper plus d’une page à la minute.

Scaler une solution de scrapping peut déjà s’avérer complexe sans Datadome alors avec…
Même si Datadome, nous empoisonne la vie, un grand bravo pour leur solution technique !

Néanmoins, j’ai créé une solution permettant ce scrapping sur la catégorie immobilier. ( aucunement une contrainte seulement un choix, de ma part )

Pygoo.fr

Par curiosité, quelles catégories vous intéresse le plus à scrapper sur Leboncoin ?

  • Véhicules
  • Hi-tech
  • Téléphonie
  • Immobilier
  • Matériel Pro
  • Maison
  • Loisir

0 votant

N’hésitez pas à détailler votre réponse.

tu as raison le rotating IP ne dépend pas uniquement de l’ip mais des informations envoyés par le browser.
Après oui il faut des connaissance, je donne une piste après ce que j’ai dev c’est plus une IA qui enregistre les interattractions humaine.

2 « J'aime »

Allez une petite astuce ; vous utilisez un macro recorder (do it again par exemple), vous faite un record des actions en boucle.
Vous pouvez aussi ajouter des plugins sur firefox qui vous aiderons pour tout ce qui est spoofing, rotating.
C’est le mieux si vous n’avez pas vraiment de notion en programmation etc mais très efficace, par contre cela demande un petit temps de faire la macro.

1 « J'aime »

Je suis nouveau sur le forum donc je ne sais pas si c’est toujours comme ça, mais là j’avoue ne pas bien comprendre la réponse, tant sur le fond que sur la forme…

Sur le fond : vous parlez d’un « simple rotating IP » pour contourner le problème mais quand je demande un ordre de grandeur de la rotation nécessaire, vous dites n’utiliser que votre IP legit et que ça dépend pas uniquement de l’ip…
Du coup j’en sais pas plus, mais à la limite c’est pas très grave si vous n’avez pas la réponse ou ne souhaitez pas la donner de but en blanc.

Sur la forme : il faut voir plus loin que juste automatiser les taches par python, ne pas suivre les « script kiddy », et arrêter de vouloir automatiser quand on est trop débile pour comprendre un algo.

Là, clairement, on est dans de la réponse de qualité, merci beaucoup !

Il ne s’agit pas « d’automatiser des taches par python ou autre », mais de scrapper plusieurs milliers de pages par jour pour en tirer des statistiques. Je ne suis pas de « script kiddy », comme je l’ai dit je commence à peine et cherche à évaluer les moyens à mettre en place. Et enfin, étant développeur depuis une dizaine d’année, je pense avoir « l’intelligence de comprendre un algo »

Bref… merci quand même.

2 « J'aime »

Hello,

@Spropers , pour le scrapping de lbc, je te conseillerais une solution payante pour le proxy.
Ensuite concernant la config, celle que nous utilisons chez Immoji est la suivante :
Nous avons implémenter un proxy rotator, pour changer de proxy à chaque call, plus en détail on a 2 proxies différents (pour le moment ^^) :

  • proxy 1 : pool de ~20 000 IPs de datacenter (tu t’en sors facile pour moins de 100$/mois après cela dépend du traffic) + Country targeting
  • proxy 2 : pool de 10 ips dédié + country targeting

Et donc à chaque call tu changes de proxy (pool d’ips) et d’IP !

Bien sûr il faut que le reste (ie User-Agents, cookies …) soit bien défini et calibré :wink:

Avec cette approche environ 80% des requêtes passent, il faut dire que leur solution Datadome est vraiment redoutable ! En espérant t’avoir aidé :slight_smile:

Jordan

3 « J'aime »

On n’utilise pas de solution commerciale. Tout a été développé from scratch en python. Si tu souhaites développer le tiens je pourrais t’aider par mp si tu veux :slight_smile:

1 « J'aime »

Avec zennoposter tu pourras faire ce que tu souhaites

Bonjour @magicjo,

Merci pour ta réponse, je pensais aussi me diriger vers une solution payante car j’ai conscience que les solutions gratuites sont nécessairement limités. C’est pour ça que je voulais d’abord estimer la quantité d’IP nécessaires pour évaluer le prix mensuel à y mettre.

Avec 100$/mois pour 20k IP, j’ai déjà une première estimation, donc merci !
Par curiosité, vous faites combien de requêtes quotidienne à la louche ?

Pour mon besoin, je devrais tourner autour de 10k requêtes par jour, ce qui devrait pouvoir se faire sans trop de soucis avec 20k IP… et le bon calibrage autour !

J’ai tout un tas d’autres questions, mais c’est plus par manque de connaissances donc je vais d’abord mettre les mains dans le cambouis et essayer par moi-même, pour voir si j’arrive à y répondre tout seul :slightly_smiling_face:

Sinon, j’ai trouvé un « bug » sur Immoji, je peux te le décrire en MP si tu veux, en remerciement de tes réponses ^^

Hey @Spropers,

Alors c’est une fourchette on est sur du 300k requêtes a minima par jour ^^, (dit comme ça, ça en fait des requêtes ahah). 20k IPs c’est assez suffisant, si tu fais une bonne rotation et que tu rajoutes des « delays » random entre chaque requête.
Ok, n’hésites pas pour les autres questions :slight_smile:

Ah super, merci ! Je te mp pour le bug.

Bigre, avec 300k requêtes quotidienne ça me décomplexe sur mon petit 10k/jour :grin:.

Le fait que ce soit fait en python me décomplexe aussi, j’étais encore en train d’hésiter à partir sur du NodeJS car « réputé » plus adapté à ce genre de choses, mais je préfère et maitrise clairement mieux Python.

Du coup, je mets les mains dans le cambouis gentiment et si j’ai d’autres questions, je viendrai toquer à la porte.

Merci !

1 « J'aime »

Hello @magicjo @Spropers
Juste une petite question, vous faites vos requests sur le site directement, sur l’API mobile ou depuis un emulateur de browser ?

1 « J'aime »

Salut @owendittmer, pour le moment en direct. Environ 80% de nos requêtes sont « successful ».
Nous sommes en train de réfléchir aux 2 autres pistes que tu mentionnes, l’api mobile nous semble assez prometteur.

Ah d’accord, merci du retour.

J’ai look un petit peu l’app mobile tout à l’heure.
Forcément ils font du SSL pinning pour éviter le reverse avec un proxy, je vais essayer de reverse leur app android et virer le pinning quand j’ai le temps.
Mais ce sera surement que le début, Datadom se base sur plein de choses comme les touch events donc je pense qu’il faudra vraiment reverse leur SDK pour simuler des events durant les calls API.

Btw je viens de look Immoji, c’est top, bravo à vous et c’est sympa que vous proposiez une solution gratuite :call_me_hand:

1 « J'aime »

Virer le SSL pinning ça doit pas être une chose facile j’imagine ?

J’ai jamais fait mais de ce que j’ai compris c’est plutôt faisable. @ScrapingExpert
Il faut décompiler l’app, localiser, virer des executions et recompiler.
Je te tiens au jus.

1 « J'aime »