Outil pour scraper 100+ pages web uniques

Hello à tous,

Existe t’il un outil pour scraper à partir d’une liste d’url de pages web uniques avec chacune des structures différentes, sachant qu’on ne veut rien cibler dans ces pages, mais extraire tout le html ?

Merci par avance pour votre aide.

Hello,
Sur Mac OS et/ou Ubuntu et Co: Wget et Curl en ligne commande.

wget -i urls_file.txt
xargs -n 1 curl -O < urls_file.txt

Du coup si tu ne cibles rien mais que tu veux juste le HTML… il n’est plus question de scraping :upside_down_face:

Les solutions données par @lorent c’est parfait !

Par contre est-ce que tu peux préciser si tu souhaites avoir:

  • le HTML brut, tel que renvoyé par le site avant chargement dans ton navigateur web
  • ou bien le HTML après modification du DOM par ton navigateur web (en gros après chargement des différents scripts en JavaScript et intégration de données issues d’API)
1 J'aime