Scraper des données sans savoir coder avec ParseHub

Salut la communauté,

j’ai récemment découvert ParseHub, un bel outil qui permet de scraper les données d’un site sans avoir à écrire une seule ligne de code.
Même si c’est assez facile à prendre en main, il y a quelques subtilités à prendre en compte avant de pouvoir en exploiter tout le potentiel… Et avoir des résultats conformes à ses attentes :slight_smile:

Voici donc un tuto vidéo que j’ai réalisé afin de vous familiariser avec la bête. Enjoy !

3 J'aimes

Du même style, par les créateurs du génial Scrapy : https://scrapinghub.com/portia

Intéressant, toutefois une question, comment faire pour sélectionner un champ de donnée sans utiliser ce que l’on voit dans la vidéo: les sélecteurs positionnels, c’est à dire relatifs ?

Par exemple on voit que les numéros de tel sont considérés comme étant des éléments situés à la 4ième position et les emails à la 5ième position, or si jamais chaque entrée ne possède pas le même nombre de champs, toute cette logique de sélecteur positionnel tombera à l’eau…

Tu as la possibilité de faire un « test run » pour voir si tout fonctionne, avec affichage JSON.
Pour l’instant aucun souci avec les sélections relatives, au pire ça laisse un champ libre.
Le plus difficile, c’est de bien comprendre le fonctionnement de l’outil pour arriver à extraire les bonnes données dans les bons champs :wink: