Scraper du JS Content sans Selenium

ArnaudH · Mai 25, 2020, 7:15

J’aimerai obtenir du contenu qui ne s’affiche qu’après activation d’un script JS mais pas Selenium car je veux pouvoir mettre mon fichier de scrape sur Aws Lambda (et selenium m’a l’air trop compliqué à implémenter)

C’est une page où le contenu s’affiche 1 seconde après que la requête soit faîte via du Javascript.

Des idées ?

Merci

ScrapingExpert · Mai 25, 2020, 7:42

Hello,
Bien que Selenium semble pouvoir faire l’affaire, si tu veux des alternatives:

Nodejs + Puppeteer (https://github.com/puppeteer/puppeteer)
Nodejs + Playwright (https://github.com/microsoft/playwright)
Nightmare (Electron, lui même basé sur Chromium + Nodejs)

Exemple de code avec Puppeteer pour ouvrir une page dans un headless browser et faire un screenshot automatique:

const puppeteer = require('puppeteer');

(async () => {
  const browser = await puppeteer.launch();
  const page = await browser.newPage();
  await page.goto('https://example.com');
  await page.screenshot({path: 'example.png'});

  await browser.close();
})();

ArnaudH · Mai 25, 2020, 7:50

Super merci !

Je maitrise surtout python mais pourquoi pas tenter du Js, mes freins c’est de ne pas avoir pouvoir pratiquer Js sur un notebook comme Jupyter et de ne pas avoir une librairie aussi pratique que BeautifulSoup (je galère avec le Regex)

J’essaye ça demain

ArnaudH · Mai 25, 2020, 7:51

Selenium fait très bien l’affaire (je l’utilise souvent en local) mais ça a l’air d’être une galère pas possible pour le faire fonctionner sur Aws Lambda

raz101 · Mai 26, 2020, 3:53

Tu as Splash en python sinon