Scrapping : éliminer ces fichues paginations


#1

Salut les GH,

Je souhaite scrapper quelques data mais elles sont fournies 10 par 10 par page.

J’utilise Kimono qui normalement doit me permettre de créer une API qui gère automatiquement la pagination (en lui indiquant où est le bouton next il doit scrapper de page en page) hors je me tape à chaque fois une Error 5 (le site s’est protégé ?) .

Bref avez-vous une solution pour faire sauter une pagination pour du scrapping ?

Merci à vous !


#2

Salut @Morgan_Bancel,

La pagination est présente dans l’URL, ou c’est du javascript ?


#3

Présente dans l’URL. J’ai donc aussi tenté avec Kimono de lui indiquer manuellement les URL.

Il y a un URL standard avec un basic 1,2,3 foutu au milieu de l’URL. Avec un petit Excel j’ai donc recréé rapidement les URL de 1 à 50. Mais même en faisant ça Kimono échoue à me sortir la data dès la 2ème page :confused:

Si ca avait été du JS j’imagine que tu m’aurais conseillé de le faire sauter ?


#4

On peut connaitre le site en question ? (En MP).


#6

L’extension web scraper sur chrome supporte la pagination


#7

@Morgan_Bancel la navigation doit être en js, bien que l’url ne l’affiche. Essaies iMacros.


#8

Salut, merci pour l’info…je viens de tester mais la pagination est faite ainsi :

1 | 2 | 3 | 4 | … | 24 | >>

Donc web scraper va jusqu’au 4 et s’arrête… je viens de le découvrir peut-être que je ne maîtrise pas encore parfaitement.


#9

Non, tu peux faire du scrape sur plus de 4 pages, regarde le tuto sur la chaine youtube. pour les exemples qu’ils utilisent dans le tuto, tu les trouves dans le site.
Bon courage!


#10

Yes j’ai vu ce tuto et bien évidement en théorie il fait plus de 4 pages mais la configuration de la pagination est faite ainsi :

1 | 2 | 3 | 4 | … | 24 | >> et l’accordéon représenté par les “…” est “disabled” tant que tu n’arrives pas à la page 4. Hors lorsque je fais mes selectors avec web scraper je sélectionne la pagination mais il n’arrive pas à sélectionner ces “…”. Bref un peu compliqué à expliquer.

Mais bon pour l’instant j’ai généré en automatique sur Excel des sitemaps correspondant aux URL avec changement de pagination. C’est un peu du bricolage mais l’import de sitemap dans web scraper est assez simple et rapide. Donc ça fait à peu près l’affaire :slight_smile:


#11

Salut Brice, j’ai tenté l’EXTRACT avec iMacros, mais je me tape à chaque fois un #EANF# dans mon CSV. Quelque chose ne tourne pas rond dans ma macros mais je vais chercher.


#12

Tu dois t’accrocher sur une ancre ajoutée dynamiquement (c’est souvent le cas quand on te retourne #EANF#). Essaies de remonter d’un cran pour targetter une div au dessus, puis de redescendre sans class/id vers ton noeud.

Pour la rapidité par contre, iMacros ne sera pas top. Un script js sera forcément plus rapide / flexible.

good luck :wink:


#13

Merci Brice je vais tenter ça.

Pour le JS c’est là où s’arrête mes compétences malheureusement :confused:

Merci


#14

regarde au niveau code source et des url chargés généralement elles donnent la solution :slight_smile: et c’est plus simple que de passé par l’interface


#15

Accèdes-tu aux différentes pages en modifiant l’URL manuellement dans ton navigateur (ex. mettre 5 au numéro de page et voir si ça charge normalement) ? Si tel est le cas, aucune raison que le scrap ne fonctionne pas ?!


#16

En PHP via cURL et SimpleXML, un simple script permet de charger les pages et de parser leur contenu. Il y a quantité de tutos sur le web à ce sujet :
http://www.dinduks.com/tutoriel-recuperer-le-contenu-dune-page-web-avec-curl/

Si la pagination se fait via de l’Ajax c’est plus complexe, mais dans un but d’indexation, la plupart des paginations sont “hackables” ne serait-ce que pour que Google puisse les crawler.


#17

J’utilise le service (gratuit) de import.io, tu peux scrapper facilement, et ca prend en compte la pagination


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr