Scraper Unsplash

Bonjour,

J’aurai besoin de récupérer les images de la plus grande résolution sur un mot clé entré sur Unsplash. Je voudrai savoir s’il y avait des scrapers, logiciels ou solutions faciles d’utilisation.

J’ai commencé à regarder l’API officielle et, même si je pense pouvoir y arriver avec du temps (probablement même beaucoup de temps), ce n’est pas aisé pour moi.

Merci de votre aide :slight_smile:

Salut, le plus simple est de passer par l’API, tu peux regarder les exemples !

Si t’a besoin d’un coup de main pour le code n’hésite pas * :slight_smile:

1 « J'aime »

Il n’y a vraiment pas de logiciel ou script plus user friendly ?

Je souhaite récupérer toutes les images de la plus grande résolution sur un mot clé entré sur Unsplash.

De ce que je comprends, il faut faire un script bash ou équivalent qui :

1 - Fasse une première requête sur le mot clé recherché pour connaitre le nombre de pages (total_pages) contenant les éléments.

https://api.unsplash.com/search/photos?client_id=xxx&page=1&query=nature&order_by=relevant&per_page=30

2 - Accède et récupère le contenu de chaque page

https://api.unsplash.com/search/photos?client_id=xxx&page=1&query=nature&order_by=relevant&per_page=30
https://api.unsplash.com/search/photos?client_id=xxx&page=2&query=nature&order_by=relevant&per_page=30
https://api.unsplash.com/search/photos?client_id=xxx&page=3&query=nature&order_by=relevant&per_page=30
etc. jusqu’au nombre total de pages

3 - Pour chaque page récupérée, récupère l’ensemble des liens des images originales (si je ne me trompe pas, c’est le champ raw)

4 - Télécharge l’ensemble des images avec les liens récupérés

Tout ceci avec :

  • un cron qui limite le nombre de requêtes à 50 par heure (api version demo) et qui reprenne là ou il en était la précédente heure.
  • peut être des proxy pour la récupération des images car je ne pense pas qu’il soit possible de récupérer plusieurs centaines ou milliers d’images sans problèmes.

Et bien, je ne suis pas certain d’être capable de faire cela :smiley: (et je pense que j’y passerai un temps monstre n’étant pas développeur)

Pourrais-tu m’aider vu que tu as l’air de maîtriser d’avantage le sujet ?

Merci à toi :slight_smile:

Salut @newty,

  • Pas besoin de passer par un cron, tu peux simplement faire une liste avec l’ensemble des requêtes à faire et faire une pause de 60min à l’issu des 50 requêtes, ce sera plus simple.
  • Pas de soucis sur l’enregistrement des images si tu les enregistres à la volée en même temps que tes requêtes.

On peut t’aider pour te donner la ligne à suivre et te débloquer sur des problèmes très spécifiques si tu as des questions, mais tu peux aussi demander une prestation pour le faire dans la rubrique jobs. Il y a de nombreux freelance sur ce forum qui pourront te le développer rapidement :wink:

1 « J'aime »