Scrapping LBC, obtenir la moyenne des prix

#19

Et d’ailleurs si tu veux que ce soit plus rapide, fait du multithreading ou de l’asynchrone, c’est vraiment adapté a ce genre de tâches.

0 Likes

#20

J’ai augmenté les performances de mon script. Il y a sur le lien une vidéo d’un autre projet qui s’appelle KOINKOIN_JOB.

KOINKOIN_JOB est un outil qui crawle beaucoup plus vite et j’ai paralélisé aussi les traitements sur les regex.
A terme je configurerai KOINKOIN_JOB pour obtenir une nouvelle version de KOINKOIN_LBC qui sera multiCatégories, multiUrls et multiTags (et monoPlugin : celui de leboncoin <== se référer à ma vidéo KOINKOIN_JOB https:dreamproject.fr/public/)

Et pour tout dire je suis en train de réecrire KOINKOIN_JOB en C++ (plusieurs mois de boulot), pour à terme offrir a mon crawler la possibilité de lui paramétrer d’autres comportements (comme celui de s’aretter pour extraire des infos qui sont disponibles et ne pas crawler pour rien des centaines d’urls ensuite, mais ce n’est qu’un exemple, etc))

1 Like

#21

Plus fort même, pas besoin de requête supplémentaire, tout est dans le GET de la page HTML de base :joy:

0 Likes

#22

Si tu cherches la performance autant travailler avec l’API non ?
Chez moi elle répond en 100ms, ça évite d’avoir a parser le html, et ya peut être moyen de modifier les paramètres pour qu’elle renvoit plus de résultats (le limit:35) !

1 Like

#23

Je viens de tester, on peux demander jusqu’a 100 items par page via l’API :slight_smile:

0 Likes

#24

ça me paraît hyper intéressant ces discussions, si tu as des améliorations sur la version n’hésite pas je suis preneur :slight_smile:

0 Likes

#25

@ScrapingExpert, tu veux pas me faire un exemple complet et précis, si tu as le temps. Je comprend tout ce que tu me dis, mais je n’arrive pas à comprendre techniquement comment tu fais.

Peut etre une vidéo de ton écran, ou quelques explications supplémentaires m’aideraient beaucoup.

KOINKOIN_LBC est la premiere brique d’un crawler de ma conception, et typé : mon crawler n’a pour le moment qu’un comportement :

  • il cherche le nombre de pages maxi
  • il fabrique ses urls pages rayons en fonction des pages maxi trouvées
  • il parcourt les pages rayons et il cherche les urls des pages produits
  • il parcourt les urls des pages produits
    Puis enfin il scrape les pages produits.

Ayant mis en place une telle logique, je travaille maintenant à donner corps à cette logique au travers d’un fichier de configuration pour permettre de rajouter des nouveaux comportements a mon crawler.

Je sais qu’on peut toujours faire toujours plus vite en moins de passes , mais c’est pas ce que je cherche : en dev il faut commencer par faire un truc qui fonctionne ensuite vient l’optimisation.

Et moi je bosse sur un type de crawler particulier qui n’existe nulle part (gratis et opensource ou bash) : multi tag, multi url, multi plugin et “universel” (pour les sites qu’on peut crawler sans selenium), ORIENTE UTILISATEUR FINAL (celui qui veut pas se prendre trop la tête et qui veut un csv rapido).

Je ne bosse pas à “optimiser” a outrance mes scrap, je bosse sur un “truc” qui se paramètre et qui pourra crawler presque tout seul automatiquement (il suffira a terme de choisir un numero de crawler)

Aujourd’hui KOINKOIN_JOB que je réecris en C++ en est ma plus belle illustration , et est la deuxieme version de KOINKOIN_LBC entre autres…

A++

0 Likes

#26

100 items ca ne me convient pas : ca peut dépanner quelqu’un sur le bord de la route … mais je préfére crawler pour etre sûr d’avoir … que me farcir (d’un point de vue json) leurs limitations au travers une API bridée

Ca doit être mon petit côté rebelle :slight_smile: :slight_smile:

0 Likes

#27

Mais c’est 100 item par appel a l’API.
Ensuite tu met un offset de 100 pour avoir les 100 suivants…

Ce que toi tu fait avec 100 requête, tu peux l’avoir avec une seule requête sur l’api…
De ce que je vois tu as tout dans l’API !

0 Likes

#28

Tu as attiré mon attention :slight_smile: ; tu veux pas me guider avec un petit screencast de ton écran par exemple , pour me faire gagner quelques heures ?

0 Likes

#29

Mais ya rien de compliqué ouvre ta console chrome et regarde la requête, puis reproduis là !
J’ai déjà tout expliqué dans mes réponses précédentes il me semble.

C’est quoi qui te bloque ?

1 Like

#30

Je dois pas être bien fini lol :slight_smile: Je t’expliquerai ultérieurement sur ce thread ce qui coince et ce que je comprends pas ; je mettrai 2 3 photos pour illuster mon problème et mes limites aussi.
A++

0 Likes

#31

C’est noté :slight_smile:

0 Likes

#32

Hello Elpablo,

Question intéressante en effet ! J’ai créé un petit script qui permet de collecter le prix moyen en fonction des 100 premiers items, et du keyword de ton choix, avec Request, et Python 3.

Je te laisse le lien vers l’article de blog : https://lobstr.io/index.php/2018/07/29/prix-moyen-leboncoin-fr-scraping-python-request/, tu trouveras le code, et un peu d’explication.

En bidouillant un peu, tu devrais pouvoir paramétrer les régions également… Curieux d’avoir tes retours sur l’article et sur le code !

0 Likes

#33

@SashaLobstr
Très sympa le tuto très ludique. Bien fichu et tu vulgarises bien. Petite critique cependant j’aurai orienté le tuto vers une recherche moins floue comme “trottinette” ou “webcam” pour diminuer la pollution dans les annonces, remonter un tableau de valeurs plus cohérent et finir de convaincre le lecteur (sans notion de pollution dans les prix récoltés [l’utilisateur ne pourra pas faire de nettoyage dans ses prix récoltés])

Avec le CSV que l’utilisateur obtient in-fine avec mon script, il lui est très facile de supprimer la pollution dans les annonces et de faire une petite formule pour obtenir un prix moyen cohérent

0 Likes

#34

Comme l’ a indiqué @ksahin , se brancher sur l’API est de loin l’option la plus simple/performante et ce n’est pas limité à LBC d’ailleurs.Dès que vous pouvez, essayez de cloner les requests des API non officielles.ça évite de se prendre la tête avec xpath/regex, les perfs sont bien plus élevées et on recup du JSON…Si vous ne voyez pas https://api.leboncoin.fr/finder/search avec la console vous pouvez utiliser https://www.telerik.com/fiddler par exemple ,je trouve la visu plus claire pour ma part .

2 Likes

#35

@koinkoin, merci beaucoup !
Effectivement, “iPhone” est pollué par pas mal de données annexes, et comme je l’indique en fin d’article, il faudrait réaliser un filtre avec un regex pour pouvoir filtrer les données en live.
J’aurais pu faire une extraction .csv, mais je trouve le jeu dans la console assez ludique :clown_face:

Traditionnellement, je fais pas mal de .csv, comme là par exemple : https://lobstr.io/index.php/2018/06/21/scraping-cryptomonnaie-coinmarketcap/

0 Likes

#36

En tout cas bravo pour ton travail @SashaLobstr. Et moi j’ai plus qu’à bosser/comprendre tout ce que @karni et @ksahin ou encore @ScrapingExpert essaient de me faire comprendre (api).

MErci à vous tous.

0 Likes

#37

Salut tout le monde,
Ou est ce que je peux me procurer le script koinkoin_LBC ? J’en aurai besoin pour un petit projet.
Merci d’avance.

0 Likes

#38

Bonjour,

Le bon coin a changé tout son site y a 4/6 mois. KOINKOIN_LBC ne fonctionne donc plus.
Cependant dans quelques semaines le blog de KOINKOIN sera ouvert et vous pourrez de nouveau télécharger les scripts KOINKOIN que vous aurez besoin

https://www.dreamproject.fr/koinkoin/blog/

PS : j’ai laissé quelques vidéos n’hésites pas à revenir vers moi si tu as une idée ou une envie :slight_smile:

Cordialement,

0 Likes

Team : CamilleBriceJulienVivianBorisXavierSteven.