Scraper les données d'une site

Rob1 · Avril 29, 2019, 4:47

Bonjour à vous tous,

Je souhaiterais scraper les données d’un site Web d’annonces ! (titre, type…) Pour l’instant j’utiliser Data Miner, mais je rencontre un problème avec la Pagination. L’extension me donne la possibilité de sélectionner des class dans le code, mais souvent le bouton suivant et précédent ont la même class. Du coup lors du scraping, l’extension ne fait qu’un aller-retour entre la première et la deuxième page.

Avez-vous une solution, ou un outil plus performant ?

Je vous remercie tous d’avance pour l’aide

Merci Beaucoup

Camille · Avril 29, 2019, 4:51

Le mieux dans ce cas, c’est de loader directement la liste entière des url, plutôt que d’automatiser le changement de page.

du genre :

growthhacking.fr/page1.htm
growthhacking.fr/page2.htm

Tu crée la liste via un concatener sur excel ou en récupérant les urls dans sitemap.

ScrapingExpert · Avril 30, 2019, 2:57

Hello Rob !

Dataminer t’offre la possibilité de cibler des éléments HTML par l’intermédiaire de sélecteurs CSS, ou XPath.

Or, bon nombre de personne s’imagine que seul l’attribut « class » permet d’identifier de manière unique un élément HTML. C’est faux, on peut se baser sur d’autres attributs que « class », et en XPath on peut aussi se baser sur le contenu texte des balises.

Pour en revenir à ton cas, il y a certainement moyen d’écrire un sélecteur CSS qui permette d’identifier de manière unique le bouton page suivante, en passant outre l’attribut class

Aurais tu le lien de la page en question ?