Bonjour à tous !
Je suis tombé sur cet article Medium traitant de Web Scraping avec un headless browser + Nodejs + Puppeteer, dans le but d’extraire de la données depuis les sites Medium et Youtube.
Au delà du tuto expliquant comment mettre bout à bout divers briques dans le but d’obtenir une app de scraping fonctionnelle avec les technologies mentionnées, ce qui m’a semblé intéressant c’est la manière dont la partie du code en charge du scraping est implémentée, avec son lot d’erreurs et maladresses.
D’une part le code n’extrait pas correctement certaines données, mais surtout il est écrit avec certaines longueurs dans un style impératif, plutôt que déclaratif.
Je me suis dis que cela méritait un article à part entière, pour aider à simplifier le code, et corriger le problème de sélection des données à extraire (principalement dû à l’utilisation des sélecteurs CSS, au lieu des XPaths).
Voici l’article réponse, avec les améliorations: