Scraping FNAC

Bonjour,

J’ai besoin de récupérer des données sélectionnées sur le site Fnacpro.com (nom du produit, photos du produit, description du produit, prix du produit, code EAN, statut de disponibilité du produit).

L’objectif serait d’avoir une solution automatisée sur Google Sheets, sur laquelle je pourrai insérer une liste d’urls et obtenir les données souhaitées.
De plus, ces données devraient être rafraîchies une à deux fois par jour.
Qu’en pensez-vous ? Pensez-vous que cela soit possible ? SI oui avec quels outils?

Merci d’avance pour vos commentaires.

Vous pouvez essayer Octoparse. L’outil permet d’obtenir une liste d’URLs à partir de Google Sheet. Pour mettre à jour les données, pensez à l’extraction programmée peut-être.
https://helpcenter.octoparse.com/fr/articles/6791535-comment-importer-les-url-a-partir-de-google-sheet

Le site est « protégé » par Datadome, si tu n’as aucune connaissance en scraping tu vas mettre beaucoup de temps à réussir. Les techniques basiques ne marcheront pas comme Octoparse, etc…

  • Sois tu passes par un pro qui t’écris un script sur scrapy
  • Sois tu passes par Scraping Bot ou OxyLabs (minimum de connaissance en API)

Nous on scrape régulièrement la Fnac à https://www.scrapster.io/, donc si tu as encore besoin de ces données n’hésite pas à me le dire :slight_smile:

bonjour

 j'ai vu ce commentaire sur scrapy , est ce que cette blibliothéque peut permettre de contourner les erreurs 403  sans ajouter des couts d'achat de proxy  ( résidentiel et rotating prroxy)  

car je recontre cette problématique avec un programme python déployé dans azure app service qui me génère ces erreurs quand je l’execute
merci