[TUTO A to Z] Faire un scraper quotidien en Cloud

Hello tout le monde,

J’ai rédigé quatre articles medium pour apprendre à scraper un site tous les jours en cloud en utilisant :

  • selenium sur python (donc possibilité de scraper du contenu javascript !)
  • google cloud compute pour le serveur
  • google sheet pour stocker les données et y accéder rapidement
    *crontab pour rendre quotidien le scraping

Le tutoriel peut se diviser en 4parties :

  1. Comment avoir un serveur Google Cloud personnel : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-1-4-1337a3c50929
  2. Comment mettre en place le script python de scraping sur le serveur : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538
  3. Bonus : exporter les données scrapées vers Google Sheet /être notifié par mail à chaque exportation : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-3-5-93a7b99489db
  4. Comprendre le code contenu dans le script python et les fichiers install.sh / start_headless.sh : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-4-4-38c02f4dc040

Ca peut être très utile si vous cherchez à vous créer une base de données / suivre une valeur

Voilà hésitez par à me faire tous types de retours, en espérant que ça aide un maximum d’entre vous :wink:

13 « J'aime »

Bonjour Arnaud,
Merci énormément pour ces infos. Ce sont des sujets auxquels je m’intéresse particulièrement.
Cela me sera utile.

1 « J'aime »

Trop cool !
Par contre je te préviens mon tuto n’explique pas dans le détail comme je passe de l’HTML à une table pandas structuré avec BeautifulSoup

Mais c’est pas très compliqué à maitriser, perso j’avais appris avec ce tuto : https://medium.com/france-school-of-ai/web-scraping-avec-python-apprenez-à-utiliser-beautifulsoup-proxies-et-un-faux-user-agent-d7bfb66b6556

J’avais lu un article sympa sur ce sujet


Yes, Pupetter marche bien aussi, et a l’avantage de pouvoir être mit sur du serverless (lambda, cloud function), contrairement à selenium où ça m’a l’air impossible

Mais pour ceux qui savent que coder en python, selenium c’est le top