Hello tout le monde,
J’ai rédigé quatre articles medium pour apprendre à scraper un site tous les jours en cloud en utilisant :
- selenium sur python (donc possibilité de scraper du contenu javascript !)
- google cloud compute pour le serveur
- google sheet pour stocker les données et y accéder rapidement
*crontab pour rendre quotidien le scraping
Le tutoriel peut se diviser en 4parties :
- Comment avoir un serveur Google Cloud personnel : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-1-4-1337a3c50929
- Comment mettre en place le script python de scraping sur le serveur : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538
- Bonus : exporter les données scrapées vers Google Sheet /être notifié par mail à chaque exportation : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-3-5-93a7b99489db
- Comprendre le code contenu dans le script python et les fichiers install.sh / start_headless.sh : https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-4-4-38c02f4dc040
Ca peut être très utile si vous cherchez à vous créer une base de données / suivre une valeur
Voilà hésitez par à me faire tous types de retours, en espérant que ça aide un maximum d’entre vous