Contourner le repost automatique sur leboncoin grande échelle

Bonjour,

Cela fait longtemps que je scrap leboncoin. Mais aujourd’hui, je suis face à un nouveau problème. Quand on est à grande échelle, il existe beaucoup de solutions pour réduire les coûts de scrapping et ne pas être flood par les annonces. Mais systématiquement, quand je passe à travers les pages d’une recherche automatiquement, une fois vers la page 5-10, le temps de scrap fais que leboncoin a eu le temps de reposter d’autres annonces, annonces qui ne sont donc pas réellement des nouvelles annonces. J’ai diminué ce phénomène, mais je reste perdre en efficacité à cause de cela.

Piste :
Quand je scroll sur l’app, je ne crois pas tomber sur des annonces qui sont injectées pendants que je lis. Peux être qu’il y faudrait garder une empreinte a travers les pages pour que leboncoin nous garde le même contenu ?

Bonjour,

Je scrap également Leboncoin. (cf Growth Data)

Je ne vois pas le problème si tu cleanes les doublons à la fin de ton scraping. Tu es sur quelle récurrence sur le scraping ? (1 fois par heure, 1 fois par jour…)
Tu scrapes pour des clients ou pour ton besoin personnel ?

Pour nos clients, on préconises de faire un Data Cleaning avant l’import des données sur le CRM et on est sur une récurrence maximum de 1 fois par heure pour certains clients.

Merci pour ta réponse, bien sûr que je clean les doublons. C’est juste que ce phénomène demande scraper plus de pages pour rattraper le fait que leboncoin injecte des annonces en même temps que je les récupère. Ce n’est pas l’idéal. Je scrap une fois par heure et le but est de rattraper à chaque exécution.

1 « J'aime »

Je suis désolé je comprends pas ton problème. C’est pas grave que LBC injecte des annonces pendant ton scraping sachant qu’au prochain scraping tu vas les extraire ?

Si tu veux vraiment éviter l’effet de doublon fais un trie sur l’url « Les Plus récents » et scrape seulement les 4 premières pages par exemple selon le niveau d’annonce

1 « J'aime »

Hello @GrimalDev

Effectivement, sur leboncoin.fr tu scrapes de la donnée sur un tapis roulant
çàd que le site injecte des nouvelles annonces pendant que tu collectes de la donnée

Une des stratégies gagnantes peut être d’utiliser la stratégie du goulot :sake:

  • scraper les page 1 à 10
  • toutes les 10-15 minutes
  • avec 2-3 scrapers distincts

Et ensuite dédoublonner à partir de l’annonce_id unique.


Et tu peux faire tout ça avec notre puissant leboncoin listings search export

Tu peux

:page_facing_up: limiter la collecte à la page 10

Capture d’écran 2023-09-05 à 12.33.22

:family_man_boy_boy: lancer 3 scrapers en même temps

Capture d’écran 2023-09-05 à 12.34.00

:clock1: lancer ta collecte automatiquement toutes les 15 minutes

NB: et on déduplique même tes résultats pour que tu n’aies à la fin qu’à récupérer un joli set de données unique

Capture d’écran 2023-09-05 à 12.35.34

N’hésite pas à me contacter en MP si besoin.
Happy scraping!

1 « J'aime »

Ta déjà essayer de faire du temps réel sur Leboncoin quand une annonce est mise en ligne ça l’extrait directement ? Ou niveau ressources ça ne sert à rien ?