Scrapper du contenue sur Webarchive

Hello,

Je cherche à scrapper du contenue sur un expiré que j’ai récupéré, un ancien site Wordpress.

De base je voulais utiliser Screaming frog comme je peux le faire avec lui en spécifiant les zones que je souhaite récupérer, mais je me suis fais avoir car Screaming Frog à une limite de scrap en caractère par page et donc il ne me récupère qu’une partie de la page…

Vous avez une solution éventuellement ? Je peux aussi avoir les fichier en htlm sur PC et lui faire scrapper les fichiers au cas ou :slight_smile:

hello ! :slight_smile:
tu as un petit script ruby gratos pour ca :

tu le lances comme ceci :
wayback_machine_downloader « http://www.url.fr/sousrepertoire/ » --t 20150501020551
avec le timestamp que tu auras repérer à l’avance

enjoy :slight_smile:

moi j’utilise Expired Article Hunter, pas toujours au top, mais on peut faire du bulk domain en fonction dela thématique -> Ca récupère uniquement les textes !
http://expiredarticlehunter.com/

3 J'aimes

Merci à toi! effectivement c’est un peu ce que je recherche tu as des informations sur son utilisation ?

Merci de votre retour, hélas il ne récupère jamais comme je le veux le site, je pensais tester du coup la waybach machine dowloader

Bonjour, vous pouvez utiliser selenium pour faire du scraping. Je l’utilise avec python et les éléments que cible sont accessible par exemple je veux tous les textes de la balise title ,prix,description footer etc.

Je vais essayer pour ma part le script mais c’est toujours d’actu ?

Bien sûr que c’est toujours d’actu !
@dream, si ton but est de travailler UN SEUL site, je te conseille de regarder du côté d’Archivarix ici : https://archivarix.com/ Ça t’aidera grandement.
Ce SAAS te permet de récupérer l’archive complète d’un site, de l’installer directement sur ton serveur et de disposer d’un cms pour travailler tes contenus.