Scraping n° tel LBC + envoi message

Le problème c’est pas la faisabilité c’est l’industrialisation, sur 5 à 10k pages avec des pools d’IPs c’est jouable mais sur 50k à 100k pages dans la même journée c’est plus possible ou sa coûte une fortune en IPs.

1 « J'aime »

Le must, ça reste de pouvoir récupérer des milliers de page sans aucune rotation d’IP, très compliqué mais… faisable :slight_smile:

Ca permet ainsi de réduire les coûts liés aux proxys.

ça risque de prendre du temps :slight_smile:

Quelqu’un a essayé avec un émulateur d’appli android ? Il y a le même type de protection ?

En effet @rmaz j’utilise scraperapi tous les jours et c’est top !

J’y ai pensé mais trop de boulot irl. Et puis LBC j’ai laché depuis longtemps maintenant.

Pour émuler une app type Androïd il faut commencer par faire du reverse engineering sur l’app mobile, afin de rejouer les bonnes requêtes. Ces requêtes sont en HTTPS, cryptées en SSL, ce qui rend la tâche un poil plus complexe sous Androïd si on a pas le bon certificat. :confused:

Tu peux également démonter l’APK pour avoir les requêtes, le problème visiblement c’est qu’il y a un token par uuid qui limite le nombre des requêtes et évite le spam.

1 « J'aime »

Hello @ScrapingExpert, @rmaz,

Je ne parlais de reverse engineering et de requêtes, mais d’un émulateur Android qui créer un smartphone virtuel sur son ordinateur et qui permet de télécharger des appli.
Et à partir de ça il y a sûrement moyen d’automatiser l’utilisation de l’appli Leboncoin et l’extraction des données ?

Tu vas tomber sur les mêmes restrictions je pense, il faut essayer mais je pense qu’il y a un check maintenant sur le uuid du téléphone, plus les IPs quand tu demandes un grand nombre de requêtes. Cela dépend vraiment du besoin, si tu dois récupérer moins de 10k pages par jours, une rotation d’IPs fait largement le boulot, si tu veux aller plus loins il faut à mon sens passer le webservice en faisant de reverse des requêtes.

2 « J'aime »

Très intéressant à lire tout ça.

Pour mon opinion personnelle, je dirais qu’il doit exister une solution légale et pas très chère. J’en veux pour preuve les logiciels , type SaaS, de pige immobilière. Ils reçoivent toutes les annonces immobilières, et te fournissent le numéro de téléphone de l’annonce (si la personne en a mis un).
Pour donner des exemples, je parle de sites comme : directmandat.com, de yanport.com ou encore de textomandat.com
Qui proposent des services entre 11€HT et 49€HT (sms compris pour ce dernier prix).

Contacte-les ou même LBC en direct pour voir ce qu’ils proposent, ou comment ils font. :wink:

3 « J'aime »

Je rejoins l’avis de bon nombre d’entre vous concernant l’efficacité de datadome. Néanmoins, il n’est pas impossible à contourner. Avec la librairie requests + rotation d’ips dédiés résidentiels + changement signature du SSL et TLS, on peut avoir un taux de succès pas dégueu de l’ordre de 60%. Mais pour augmenter ce chiffre il faut du headless browser, en exploitant bien les failles de datadome on parvient à du 99% (sans rotation d’ip). Malheureusement je ne peux pas donner plus de détails, car vous l’aurez compris c’est un jeu de chat et la souris. Néanmoins, pour ceux qui ont des besoins de scrapping de données immobilière (y compris des numéros), n’hésitez pas à me contacter en MP.

2 « J'aime »

Personnellement je scrape sans proxies environ 80.000 numéros par jours en ce moment, sans soucis avec Datadome. Il y a des failles, il faut savoir les utiliser !

3 « J'aime »

Ca fait rêver!

Le tarif de DataDome aussi :grinning:

Mais en effet ça fait rêver !

Bonjour,

Nous avons besoin de données LBC + téléphone, y’a t’il quelqu’un qui propose ce type de service dans le forum. N’hésitez pas à me contacter !

merci

Bonjour,

je viens de vous répondre en DM :smile: Je propose ce service via API ou envoi de fichiers déjà prêts !

Hello @Sarah,

On peut t’envoyer de jolis fichiers leboncoin également!

_ tu donnes ton URL de recherche leboncoin e.g. https://www.leboncoin.fr/recherche?locations=Marseille_13007__43.2815_5.35905_6221
_ tu donnes la fréquence de lancement e.g. tous les jours à 8h

Le robot se lance, collecte les données, et t’envoie un joli mail.
Pas d’API, que de la donnée facilement exploitable.

On peut en discuter en DM!

:crab:

Bonjour, je te propose à utiliser mon API de scrapping des numéros de téléphone à plus grande échelle :slight_smile:

Bonjour je serais intéressée par les services de quelqu’ un comme vous. Pouvez vous me recontacter par email à [email protected].

Merci
Cordialement