Scrapper du contenue sur Webarchive

Dream · Avril 20, 2018, 8:35

Hello,

Je cherche à scrapper du contenue sur un expiré que j’ai récupéré, un ancien site Wordpress.

De base je voulais utiliser Screaming frog comme je peux le faire avec lui en spécifiant les zones que je souhaite récupérer, mais je me suis fais avoir car Screaming Frog à une limite de scrap en caractère par page et donc il ne me récupère qu’une partie de la page…

Vous avez une solution éventuellement ? Je peux aussi avoir les fichier en htlm sur PC et lui faire scrapper les fichiers au cas ou

conquering_lion · Avril 20, 2018, 11:32

hello !
tu as un petit script ruby gratos pour ca :

tu le lances comme ceci :
wayback_machine_downloader « http://www.url.fr/sousrepertoire/ » --t 20150501020551
avec le timestamp que tu auras repérer à l’avance

enjoy

Clement_Desmousseaux · Avril 20, 2018, 11:56

moi j’utilise Expired Article Hunter, pas toujours au top, mais on peut faire du bulk domain en fonction dela thématique -> Ca récupère uniquement les textes !
http://expiredarticlehunter.com/

Dream · Avril 20, 2018, 2:21

Merci à toi! effectivement c’est un peu ce que je recherche tu as des informations sur son utilisation ?

Dream · Avril 22, 2018, 7:50

Merci de votre retour, hélas il ne récupère jamais comme je le veux le site, je pensais tester du coup la waybach machine dowloader

temara · Avril 25, 2018, 10:51

Bonjour, vous pouvez utiliser selenium pour faire du scraping. Je l’utilise avec python et les éléments que cible sont accessible par exemple je veux tous les textes de la balise title ,prix,description footer etc.

go4it · Mai 1, 2020, 7:57

Je vais essayer pour ma part le script mais c’est toujours d’actu ?

Clement_Desmousseaux · Mai 17, 2020, 4:06

Bien sûr que c’est toujours d’actu !
@dream, si ton but est de travailler UN SEUL site, je te conseille de regarder du côté d’Archivarix ici : https://archivarix.com/ Ça t’aidera grandement.
Ce SAAS te permet de récupérer l’archive complète d’un site, de l’installer directement sur ton serveur et de disposer d’un cms pour travailler tes contenus.

bbfrenchy · Juillet 3, 2020, 1:04

Bonjour à tous,
Personnelement j’utilise un tool qui fait des miracle, il récupère l’intégralité du site en quelques minutes : https://seocontentmachine.com/

Vous allez pouvoir retrouvez l’intégralité de votre ancien contenu sans souci et sans prise de tête.
J’ai déja pu le faire pour un de mes sites et j’ai pu le faire en 15 minutes… Rapide efficace.

Si vous avez des questions n’hésitez pas.