Web Scraping avec Puppeteer

Bonjour à tous !

Je suis tombé sur cet article Medium traitant de Web Scraping avec un headless browser + Nodejs + Puppeteer, dans le but d’extraire de la données depuis les sites Medium et Youtube.

Au delà du tuto expliquant comment mettre bout à bout divers briques dans le but d’obtenir une app de scraping fonctionnelle avec les technologies mentionnées, ce qui m’a semblé intéressant c’est la manière dont la partie du code en charge du scraping est implémentée, avec son lot d’erreurs et maladresses.

D’une part le code n’extrait pas correctement certaines données, mais surtout il est écrit avec certaines longueurs dans un style impératif, plutôt que déclaratif.

Je me suis dis que cela méritait un article à part entière, pour aider à simplifier le code, et corriger le problème de sélection des données à extraire (principalement dû à l’utilisation des sélecteurs CSS, au lieu des XPaths).

Voici l’article réponse, avec les améliorations:

3 « J'aime »

Great :heart_eyes::smiling_face_with_three_hearts:

1 « J'aime »

Attention par contre car l’auteur de l’article original a modifié son code, en reprenant le mien sans mentionner qu’il avait corrigé à partir de mon code, du coup mon post correctif semble un peu « inutile » :joy:

1 « J'aime »

ahh j’aime pas quand on s’approprie un travail comme ça! honteux !

2 « J'aime »

Il voulait que tu ouvres une issue sur Github et je pense qu’il n’a pas aimé la publication sur Medium.

On n’ouvre pas d’issue pour dire que le code du mec est crado… :joy:

2 « J'aime »

Ça n’explique pas le fait de pomper :kissing_heart::speak_no_evil:

1 « J'aime »