Scraping à travers une API

jabric · Novembre 26, 2018, 4:36

Hello.

Je continue de m’amuser à apprendre des choses simples du scrapping, avec des outils gratuits.

Je souhaiterais scrapper tous les projets de ce site proposant un bounty d’une certaine catégorie (par exemple les articles).
Sur le site, il faut cliquer sur filtrer les projets, choisir la catégorie « article » pour faire apparaitre les projets.
https://beta.bounty0x.io/bounties/

J’ai retrouvé, via la console, l’appel qui est passé à cette adresse : https://api.bounty0x.io/v1/bounties/live?limit=10&offset=0&sort=createdon:desc&categoryid=102

Évidemment, quand je me rends sur l’url j’ai un message d’erreur « application non autorisée ».
Y’a-t-il un moyen facile d’accéder à ces contenus malgré tout ?

lorent · Novembre 26, 2018, 5:23

Hello, copier coller dans ton éditeur puis filtrer.

jabric · Novembre 26, 2018, 5:29

Merci, cela va raccourcir déjà la démarche.
Je vais regarder ça en détail.

Idéalement, j’aurais aimé l’automatiser (que ce soit mis à jour en direct), ce qui n’est pas possible avec cette méthode.
Il faut d’ailleurs répéter l’opération pour chaque page avec ton système, c’est ça ?

lorent · Novembre 26, 2018, 5:41

1- Scrap tous les urls ex: https://beta.bounty0x.io/bounties/1014239
2- Scrap les pages

SashaLobstr · Novembre 30, 2018, 4:38

Hello @jabric,

Effectivement, il ne suffit pas de l’URL pour faire une requête mais d’un ensemble d’élément, le Headers, les Cookies, etc… qui vont habiller ta « requête », comme s’il s’agissait de celle d’un vrai utilisateur.

Si tu veux rapidement tester une requête, il faut aller sur la partie « Network » de ton navigateur, copier/coller la requête qui t’intéresse en cURL, et la coller dans ton terminal.

ScrapingExpert · Décembre 5, 2018, 5:51

Si tu veux éviter d’avoir à te taper tous les headers pour envoyer une requête, l’automatisation de ce type d’action dans un contexte « web browser » sera beaucoup plus aisée via l’implémentation avec une techno de type headless browser comme avec Nodejs + Puppeteer : )