Scraping n° tel LBC + envoi message

Merci Rocket

Bonjour,

Le robot que j’ai développé est assez complexe, il faut une bonne rotation au niveau des IPs et des interactions intelligentes avec LBC.

On peut en discuter en PV.

Cordialement,

Bonjour Rocket, pouvez-vous me contacter en PV?..je ne sais pas comment faire :rofl:
Merci

Bonjour Rocket!
J’aurai besoin de vos services, comment vous contacter?
en effet je viens de m’inscrire, mais je ne vois pas de messagerie privée à cette fin… ou alors j’ai raté quelque chose :slight_smile:

@vince007 clic sur la photo de profil d’un utilisateur :slight_smile:

Je viens de regarder rapidement rien de bien compliqué, il faudrait utiliser :

PHP Simple HTML DOM Parser, file_get_contents, stream_context_create.
La seule chose un peu technique c’est la fonction javascript qui cache le numéro sur le click event.

Pour la protection de l’IP faire une rotation des proxy.

Ensuite enregistrement des informations en BDD et ensuite exportation des numéro + prénom et hop :slight_smile:

bien noté, merci!!

Leboncoin est en fait avec ReactJS donc pas possible de faire de file get content il faut utiliser un browserheadless au minimum.

2 « J'aime »

Pour avoir pas mal essayé de choses qui semblent intuitives et faciles, je confirme que je n’en ai pas trouvé. Si tu n’as pas ‹ l’air › d’être un utilisateur humain, Datadome (la boîte qui protège Le Bon Coin des bots) te choppe avant même que tu ai vu la page d’accueil :slight_smile: Tu as essayé les techniques que tu suggères?

Je confirme ce que dis @Rocket, pour avoir la moindre chance de passer plus de 3 minutes sur le site avec un Bot, il faut un browser headless, et avoir fait complètement disparaître sa signature.

Je ne suis pas certain qu’il n’y ait « rien de bien compliqué », c’est tout le contraire justement.

Comme l’ont mentionnés @XavierA et @Rocket ici il faut faire face à Datadome, ce n’est donc pas « n’importe qui » , et de simples requêtes en mode cURL / PHP ne feront malheureusement pas l’affaire.

Et pour faire totalement disparaître la signature d’un web browser, headless ou non, bonne chance (plus compliqué que juste faire varier les paramètres relatifs à la taille d’écran, le fabriquant de la carte graphique ou détails des plugins installés).

1 « J'aime »

Beaucoup de gens sous-estiment LeBonCoin. Le site a un design simple mais derrière c’est un monstre. Il n’y a qu’à voir la vitesse de la recherche parmi 24 millions d’annonces pour des millions d’utilisateurs.

1 « J'aime »

LBC protège énormément son site, mais beaucoup moins le webservice de l’application mobile. Vous pouvez facilement récupérer l’intégralité des informations dans un JSON via https://github.com/tdurieux/leboncoin-api qui exploite le webservice et ça marche à merveille.

2 « J'aime »

Honnêtement c’est pas si infaisable, je vous envoi le script la semaine prochaine

1 « J'aime »

Le point que tu n’as pas compris, c’est qu’il y a DataDome derrière qui repère les robots et les exclue. Faire un robot, c’est facile. Faire un robot pour LeBonCoin, c’est autre chose. Tu peux être sûr que l’implémentation d’un robot simple (php par exemple) est déjà bloquée par LeBonCoin. Essaie de scraper 1000 annonces et j’ai assez confiance dans le résultat obtenu.

1 « J'aime »

Pourrais tu stp detailler un peu plus ?

@rmaz merci pour la librairie mais ça n’a plus l’air de fonctionner d’après son auteur :

/!\ leboncoin.fr is using DataDome to protect his API from library likes this one, it is library is not reliable in production anymore /!\    

Sinon une petite question par rapport à la protection de DataDome : même en changeant d’ip à chaque requête ça bloque ? :thinking:

Perso avec de l’IP rotatif aucun souci pour scrapper LBC

Je confirme qu’avec une bonne rotation d’ip ils ne détectent rien

Oui je vois aucun soucis de mon coté pour le scrap LBC (peut être le manque de connaissance à prendre en compte ^^), vous pouvez aussi faire une émulation du responsive afin d’extraire le code enfin bon…
https://search.google.com/test/mobile-friendly

C’est pas impossible qu’il ne fonctionne plus, je l’ai utilisé courant février et ça marcher vraiment bien. Pour le datadom il faut essayer plusieurs techniques, en fonction de tes besoins, personnellement c’est des milliers de pages que je récupère et déjà à l’époque même avec des pools d’IPs je me faisais dégager avec Puppeteer assez rapidement sur le front, c’est pour cela que j’ai basculé sur l’API du webservice et sans pool.

Idées pour débloquer le problème :

  • https://www.scraperapi.com (que j’utilise pour les résultats Google, visiblement ça fonctionne pas trop mal avec LBC)
  • Passer par Zennoposter (je pense un poil moins rapide mais plus personnalisable)
1 « J'aime »