Scrapper du contenue sur Webarchive


#1

Hello,

Je cherche à scrapper du contenue sur un expiré que j’ai récupéré, un ancien site Wordpress.

De base je voulais utiliser Screaming frog comme je peux le faire avec lui en spécifiant les zones que je souhaite récupérer, mais je me suis fais avoir car Screaming Frog à une limite de scrap en caractère par page et donc il ne me récupère qu’une partie de la page…

Vous avez une solution éventuellement ? Je peux aussi avoir les fichier en htlm sur PC et lui faire scrapper les fichiers au cas ou :slight_smile:


#2

hello ! :slight_smile:
tu as un petit script ruby gratos pour ca :

tu le lances comme ceci :
wayback_machine_downloader “http://www.url.fr/sousrepertoire/” --t 20150501020551
avec le timestamp que tu auras repérer à l’avance

enjoy :slight_smile:


#3

moi j’utilise Expired Article Hunter, pas toujours au top, mais on peut faire du bulk domain en fonction dela thématique -> Ca récupère uniquement les textes !
http://expiredarticlehunter.com/


#4

Merci à toi! effectivement c’est un peu ce que je recherche tu as des informations sur son utilisation ?


#6

Merci de votre retour, hélas il ne récupère jamais comme je le veux le site, je pensais tester du coup la waybach machine dowloader


#7

Bonjour, vous pouvez utiliser selenium pour faire du scraping. Je l’utilise avec python et les éléments que cible sont accessible par exemple je veux tous les textes de la balise title ,prix,description footer etc.


Team : CamilleBriceJulienVivianBorisXavierSteven.
Follow @growthhackingfr