Scrapping LBC, obtenir la moyenne des prix


#21

Plus fort même, pas besoin de requête supplémentaire, tout est dans le GET de la page HTML de base :joy:


#22

Si tu cherches la performance autant travailler avec l’API non ?
Chez moi elle répond en 100ms, ça évite d’avoir a parser le html, et ya peut être moyen de modifier les paramètres pour qu’elle renvoit plus de résultats (le limit:35) !


#23

Je viens de tester, on peux demander jusqu’a 100 items par page via l’API :slight_smile:


#24

ça me paraît hyper intéressant ces discussions, si tu as des améliorations sur la version n’hésite pas je suis preneur :slight_smile:


#25

@ScrapingExpert, tu veux pas me faire un exemple complet et précis, si tu as le temps. Je comprend tout ce que tu me dis, mais je n’arrive pas à comprendre techniquement comment tu fais.

Peut etre une vidéo de ton écran, ou quelques explications supplémentaires m’aideraient beaucoup.

KOINKOIN_LBC est la premiere brique d’un crawler de ma conception, et typé : mon crawler n’a pour le moment qu’un comportement :

  • il cherche le nombre de pages maxi
  • il fabrique ses urls pages rayons en fonction des pages maxi trouvées
  • il parcourt les pages rayons et il cherche les urls des pages produits
  • il parcourt les urls des pages produits
    Puis enfin il scrape les pages produits.

Ayant mis en place une telle logique, je travaille maintenant à donner corps à cette logique au travers d’un fichier de configuration pour permettre de rajouter des nouveaux comportements a mon crawler.

Je sais qu’on peut toujours faire toujours plus vite en moins de passes , mais c’est pas ce que je cherche : en dev il faut commencer par faire un truc qui fonctionne ensuite vient l’optimisation.

Et moi je bosse sur un type de crawler particulier qui n’existe nulle part (gratis et opensource ou bash) : multi tag, multi url, multi plugin et “universel” (pour les sites qu’on peut crawler sans selenium), ORIENTE UTILISATEUR FINAL (celui qui veut pas se prendre trop la tête et qui veut un csv rapido).

Je ne bosse pas à “optimiser” a outrance mes scrap, je bosse sur un “truc” qui se paramètre et qui pourra crawler presque tout seul automatiquement (il suffira a terme de choisir un numero de crawler)

Aujourd’hui KOINKOIN_JOB que je réecris en C++ en est ma plus belle illustration , et est la deuxieme version de KOINKOIN_LBC entre autres…

A++


#26

100 items ca ne me convient pas : ca peut dépanner quelqu’un sur le bord de la route … mais je préfére crawler pour etre sûr d’avoir … que me farcir (d’un point de vue json) leurs limitations au travers une API bridée

Ca doit être mon petit côté rebelle :slight_smile: :slight_smile:


#27

Mais c’est 100 item par appel a l’API.
Ensuite tu met un offset de 100 pour avoir les 100 suivants…

Ce que toi tu fait avec 100 requête, tu peux l’avoir avec une seule requête sur l’api…
De ce que je vois tu as tout dans l’API !


#28

Tu as attiré mon attention :slight_smile: ; tu veux pas me guider avec un petit screencast de ton écran par exemple , pour me faire gagner quelques heures ?


#29

Mais ya rien de compliqué ouvre ta console chrome et regarde la requête, puis reproduis là !
J’ai déjà tout expliqué dans mes réponses précédentes il me semble.

C’est quoi qui te bloque ?


#30

Je dois pas être bien fini lol :slight_smile: Je t’expliquerai ultérieurement sur ce thread ce qui coince et ce que je comprends pas ; je mettrai 2 3 photos pour illuster mon problème et mes limites aussi.
A++


#31

C’est noté :slight_smile:


#32

Hello Elpablo,

Question intéressante en effet ! J’ai créé un petit script qui permet de collecter le prix moyen en fonction des 100 premiers items, et du keyword de ton choix, avec Request, et Python 3.

Je te laisse le lien vers l’article de blog : https://lobstr.io/index.php/2018/07/29/prix-moyen-leboncoin-fr-scraping-python-request/, tu trouveras le code, et un peu d’explication.

En bidouillant un peu, tu devrais pouvoir paramétrer les régions également… Curieux d’avoir tes retours sur l’article et sur le code !


#33

@SashaLobstr
Très sympa le tuto très ludique. Bien fichu et tu vulgarises bien. Petite critique cependant j’aurai orienté le tuto vers une recherche moins floue comme “trottinette” ou “webcam” pour diminuer la pollution dans les annonces, remonter un tableau de valeurs plus cohérent et finir de convaincre le lecteur (sans notion de pollution dans les prix récoltés [l’utilisateur ne pourra pas faire de nettoyage dans ses prix récoltés])

Avec le CSV que l’utilisateur obtient in-fine avec mon script, il lui est très facile de supprimer la pollution dans les annonces et de faire une petite formule pour obtenir un prix moyen cohérent


#34

Comme l’ a indiqué @ksahin , se brancher sur l’API est de loin l’option la plus simple/performante et ce n’est pas limité à LBC d’ailleurs.Dès que vous pouvez, essayez de cloner les requests des API non officielles.ça évite de se prendre la tête avec xpath/regex, les perfs sont bien plus élevées et on recup du JSON…Si vous ne voyez pas https://api.leboncoin.fr/finder/search avec la console vous pouvez utiliser https://www.telerik.com/fiddler par exemple ,je trouve la visu plus claire pour ma part .


#35

@koinkoin, merci beaucoup !
Effectivement, “iPhone” est pollué par pas mal de données annexes, et comme je l’indique en fin d’article, il faudrait réaliser un filtre avec un regex pour pouvoir filtrer les données en live.
J’aurais pu faire une extraction .csv, mais je trouve le jeu dans la console assez ludique :clown_face:

Traditionnellement, je fais pas mal de .csv, comme là par exemple : https://lobstr.io/index.php/2018/06/21/scraping-cryptomonnaie-coinmarketcap/


#36

En tout cas bravo pour ton travail @SashaLobstr. Et moi j’ai plus qu’à bosser/comprendre tout ce que @karni et @ksahin ou encore @ScrapingExpert essaient de me faire comprendre (api).

MErci à vous tous.


Communauté initiée par @camillebesse avec l'aide de @Cebri@JulienD@VivianSolide@Boristchangang
Follow @growthhackingfr