Web Scraping avec Puppeteer

ScrapingExpert · Octobre 25, 2018, 2:20

Bonjour à tous !

Je suis tombé sur cet article Medium traitant de Web Scraping avec un headless browser + Nodejs + Puppeteer, dans le but d’extraire de la données depuis les sites Medium et Youtube.

Au delà du tuto expliquant comment mettre bout à bout divers briques dans le but d’obtenir une app de scraping fonctionnelle avec les technologies mentionnées, ce qui m’a semblé intéressant c’est la manière dont la partie du code en charge du scraping est implémentée, avec son lot d’erreurs et maladresses.

D’une part le code n’extrait pas correctement certaines données, mais surtout il est écrit avec certaines longueurs dans un style impératif, plutôt que déclaratif.

Je me suis dis que cela méritait un article à part entière, pour aider à simplifier le code, et corriger le problème de sélection des données à extraire (principalement dû à l’utilisation des sélecteurs CSS, au lieu des XPaths).

Voici l’article réponse, avec les améliorations:

boristchangang · Octobre 25, 2018, 7:40

Great

ScrapingExpert · Octobre 26, 2018, 12:12

Attention par contre car l’auteur de l’article original a modifié son code, en reprenant le mien sans mentionner qu’il avait corrigé à partir de mon code, du coup mon post correctif semble un peu « inutile »

boristchangang · Octobre 26, 2018, 1:03

ahh j’aime pas quand on s’approprie un travail comme ça! honteux !

lorent · Octobre 26, 2018, 1:23

Il voulait que tu ouvres une issue sur Github et je pense qu’il n’a pas aimé la publication sur Medium.

ScrapingExpert · Octobre 26, 2018, 1:25

On n’ouvre pas d’issue pour dire que le code du mec est crado…

boristchangang · Octobre 27, 2018, 12:32

Ça n’explique pas le fait de pomper