Outil pour scraper 100+ pages web uniques

Watson · Novembre 5, 2020, 2:16

Hello à tous,

Existe t’il un outil pour scraper à partir d’une liste d’url de pages web uniques avec chacune des structures différentes, sachant qu’on ne veut rien cibler dans ces pages, mais extraire tout le html ?

Merci par avance pour votre aide.

lorent · Novembre 5, 2020, 3:05

Hello,
Sur Mac OS et/ou Ubuntu et Co: Wget et Curl en ligne commande.

wget -i urls_file.txt
xargs -n 1 curl -O < urls_file.txt

ScrapingExpert · Novembre 5, 2020, 4:13

Du coup si tu ne cibles rien mais que tu veux juste le HTML… il n’est plus question de scraping

Les solutions données par @lorent c’est parfait !

Par contre est-ce que tu peux préciser si tu souhaites avoir:

le HTML brut, tel que renvoyé par le site avant chargement dans ton navigateur web
ou bien le HTML après modification du DOM par ton navigateur web (en gros après chargement des différents scripts en JavaScript et intégration de données issues d’API)