Scraping n° tel LBC + envoi message

Baptiste-GL · Octobre 17, 2019, 4:30

Merci Rocket

Rocket · Novembre 1, 2019, 9:44

Bonjour,

Le robot que j’ai développé est assez complexe, il faut une bonne rotation au niveau des IPs et des interactions intelligentes avec LBC.

On peut en discuter en PV.

Cordialement,

vince007 · Novembre 5, 2019, 9:39

Bonjour Rocket, pouvez-vous me contacter en PV?..je ne sais pas comment faire
Merci

vince007 · Novembre 5, 2019, 9:39

Bonjour Rocket!
J’aurai besoin de vos services, comment vous contacter?
en effet je viens de m’inscrire, mais je ne vois pas de messagerie privée à cette fin… ou alors j’ai raté quelque chose

ClementAubry · Novembre 5, 2019, 9:59

@vince007 clic sur la photo de profil d’un utilisateur

Lolo13 · Novembre 5, 2019, 10:04

Je viens de regarder rapidement rien de bien compliqué, il faudrait utiliser :

PHP Simple HTML DOM Parser, file_get_contents, stream_context_create.
La seule chose un peu technique c’est la fonction javascript qui cache le numéro sur le click event.

Pour la protection de l’IP faire une rotation des proxy.

Ensuite enregistrement des informations en BDD et ensuite exportation des numéro + prénom et hop

vince007 · Novembre 5, 2019, 10:11

bien noté, merci!!

Rocket · Novembre 7, 2019, 8:12

Leboncoin est en fait avec ReactJS donc pas possible de faire de file get content il faut utiliser un browserheadless au minimum.

XavierA · Novembre 14, 2019, 8:49

Pour avoir pas mal essayé de choses qui semblent intuitives et faciles, je confirme que je n’en ai pas trouvé. Si tu n’as pas ‹ l’air › d’être un utilisateur humain, Datadome (la boîte qui protège Le Bon Coin des bots) te choppe avant même que tu ai vu la page d’accueil Tu as essayé les techniques que tu suggères?

Je confirme ce que dis @Rocket, pour avoir la moindre chance de passer plus de 3 minutes sur le site avec un Bot, il faut un browser headless, et avoir fait complètement disparaître sa signature.

ScrapingExpert · Novembre 14, 2019, 9:06

Je ne suis pas certain qu’il n’y ait « rien de bien compliqué », c’est tout le contraire justement.

Comme l’ont mentionnés @XavierA et @Rocket ici il faut faire face à Datadome, ce n’est donc pas « n’importe qui » , et de simples requêtes en mode cURL / PHP ne feront malheureusement pas l’affaire.

Et pour faire totalement disparaître la signature d’un web browser, headless ou non, bonne chance (plus compliqué que juste faire varier les paramètres relatifs à la taille d’écran, le fabriquant de la carte graphique ou détails des plugins installés).

Berfhaen · Novembre 14, 2019, 10:04

Beaucoup de gens sous-estiment LeBonCoin. Le site a un design simple mais derrière c’est un monstre. Il n’y a qu’à voir la vitesse de la recherche parmi 24 millions d’annonces pour des millions d’utilisateurs.

rmaz · Novembre 15, 2019, 5:44

LBC protège énormément son site, mais beaucoup moins le webservice de l’application mobile. Vous pouvez facilement récupérer l’intégralité des informations dans un JSON via GitHub - tdurieux/leboncoin-api: DEPRECATED qui exploite le webservice et ça marche à merveille.

Lolo13 · Novembre 16, 2019, 6:26

Honnêtement c’est pas si infaisable, je vous envoi le script la semaine prochaine

Berfhaen · Novembre 17, 2019, 6:37

Le point que tu n’as pas compris, c’est qu’il y a DataDome derrière qui repère les robots et les exclue. Faire un robot, c’est facile. Faire un robot pour LeBonCoin, c’est autre chose. Tu peux être sûr que l’implémentation d’un robot simple (php par exemple) est déjà bloquée par LeBonCoin. Essaie de scraper 1000 annonces et j’ai assez confiance dans le résultat obtenu.

embargo · Novembre 17, 2019, 1:59

Pourrais tu stp detailler un peu plus ?

ClementAubry · Novembre 18, 2019, 7:02

@rmaz merci pour la librairie mais ça n’a plus l’air de fonctionner d’après son auteur :

/!\ leboncoin.fr is using DataDome to protect his API from library likes this one, it is library is not reliable in production anymore /!\

Sinon une petite question par rapport à la protection de DataDome : même en changeant d’ip à chaque requête ça bloque ?

Bilal_Destouches · Novembre 18, 2019, 7:08

Perso avec de l’IP rotatif aucun souci pour scrapper LBC

Kev1 · Novembre 18, 2019, 7:25

Je confirme qu’avec une bonne rotation d’ip ils ne détectent rien

Lolo13 · Novembre 18, 2019, 7:41

Oui je vois aucun soucis de mon coté pour le scrap LBC (peut être le manque de connaissance à prendre en compte ^^), vous pouvez aussi faire une émulation du responsive afin d’extraire le code enfin bon…

rmaz · Novembre 18, 2019, 9:35

C’est pas impossible qu’il ne fonctionne plus, je l’ai utilisé courant février et ça marcher vraiment bien. Pour le datadom il faut essayer plusieurs techniques, en fonction de tes besoins, personnellement c’est des milliers de pages que je récupère et déjà à l’époque même avec des pools d’IPs je me faisais dégager avec Puppeteer assez rapidement sur le front, c’est pour cela que j’ai basculé sur l’API du webservice et sans pool.

Idées pour débloquer le problème :

https://www.scraperapi.com (que j’utilise pour les résultats Google, visiblement ça fonctionne pas trop mal avec LBC)
Passer par Zennoposter (je pense un poil moins rapide mais plus personnalisable)