Je souhaite scrapper quelques data mais elles sont fournies 10 par 10 par page.
J’utilise Kimono qui normalement doit me permettre de créer une API qui gère automatiquement la pagination (en lui indiquant où est le bouton next il doit scrapper de page en page) hors je me tape à chaque fois une Error 5 (le site s’est protégé ?) .
Bref avez-vous une solution pour faire sauter une pagination pour du scrapping ?
Présente dans l’URL. J’ai donc aussi tenté avec Kimono de lui indiquer manuellement les URL.
Il y a un URL standard avec un basic 1,2,3 foutu au milieu de l’URL. Avec un petit Excel j’ai donc recréé rapidement les URL de 1 à 50. Mais même en faisant ça Kimono échoue à me sortir la data dès la 2ème page
Si ca avait été du JS j’imagine que tu m’aurais conseillé de le faire sauter ?
Non, tu peux faire du scrape sur plus de 4 pages, regarde le tuto sur la chaine youtube. pour les exemples qu’ils utilisent dans le tuto, tu les trouves dans le site.
Bon courage!
Yes j’ai vu ce tuto et bien évidement en théorie il fait plus de 4 pages mais la configuration de la pagination est faite ainsi :
1 | 2 | 3 | 4 | … | 24 | >> et l’accordéon représenté par les « … » est « disabled » tant que tu n’arrives pas à la page 4. Hors lorsque je fais mes selectors avec web scraper je sélectionne la pagination mais il n’arrive pas à sélectionner ces « … ». Bref un peu compliqué à expliquer.
Mais bon pour l’instant j’ai généré en automatique sur Excel des sitemaps correspondant aux URL avec changement de pagination. C’est un peu du bricolage mais l’import de sitemap dans web scraper est assez simple et rapide. Donc ça fait à peu près l’affaire
Salut Brice, j’ai tenté l’EXTRACT avec iMacros, mais je me tape à chaque fois un #EANF# dans mon CSV. Quelque chose ne tourne pas rond dans ma macros mais je vais chercher.
Tu dois t’accrocher sur une ancre ajoutée dynamiquement (c’est souvent le cas quand on te retourne #EANF#). Essaies de remonter d’un cran pour targetter une div au dessus, puis de redescendre sans class/id vers ton noeud.
Pour la rapidité par contre, iMacros ne sera pas top. Un script js sera forcément plus rapide / flexible.
Accèdes-tu aux différentes pages en modifiant l’URL manuellement dans ton navigateur (ex. mettre 5 au numéro de page et voir si ça charge normalement) ? Si tel est le cas, aucune raison que le scrap ne fonctionne pas ?!
Si la pagination se fait via de l’Ajax c’est plus complexe, mais dans un but d’indexation, la plupart des paginations sont « hackables » ne serait-ce que pour que Google puisse les crawler.