Comment Scraper Scholarvox?

Hello les gens,

J’ai accès à ScholarVox qui est une bibliothèque en ligne avec plusieurs livres intéressants mais que l’on peut uniquement lire en ligne, on ne peut pas les télécharger ou imprimer.

J’ai essayé toutes les astuces possibles pour l’imprimer ou l’extract en word mais je n’ai pas réussi.

Je viens donc vers vous pour savoir si un de vous a réussi cet exploit ?

NB: Je recherche à imprimer ces livres en pdf pour des raisons personnelles, c’est toujours mieux de lire sur du papier :slight_smile:

1 « J'aime »

Hello,

Pour ceux qui n’ont pas d’accès à ce site, il faudrait davantage d’informations.

Entre autre, voir quel est le HTML qu’il y a derrière les pages du site, afin de déterminer si le scraping est techniquement faisable :slight_smile:

Hello, c’est vrai que des fois ça peut être utile de pouvoir consulter sur papier certaines pages.
Ce n’est pas de l’HTML simple :-(((
Ca a l’air bien plus compliqué.

Par contre, tout le monde a accès aux premières pages des doc:

www.scholarvox.com/reader/docid/88850163/page/1

Ca vous dit quelques choses, pensez-vous d’avoir une astuce?

Merci d’avance, F.D.

Bonjour,

J’avais trouvé une méthode via firefox mais malheureusement cela ne fonctionne plus. Je up ce sujet qui m’intéresse également.

Hello,

Le sujet m’intéresse aussi, si quelqu’un trouve l’astuce ! Up

" l’imprimer" ???

J’ai sauvé le document. Puis je l’ouvre localement et je l’imprime…

SI tu veux scrapper le contenu, OCR ou un truc de style
$0.innerText sous la console…

Quelque chose doit m’échapper…

Personnellement, je ne souhaite pas l’imprimer juste copier le dossier en format PDF ce que je ne trouve pas. Et si tu exportes le dossier cela copie seulement une partie, idem pour imprimer.
D’ou le besoin de scraping pour récupérer le contenu

il suffit « d’imprimer » au format PDF, ce qui convertira tout document imprimable en PDF.

Mais on ne peut pas faire de miracles: si on vous affiche les N premières pages du livre comme échantillon, on ne pourra imprimer que les N premières pages.

Je débarque un peu, Scholarvox ça me fait penser à z-lib.org , mais en « offre légale » ?

Scolarvox c’est une bibliothèque digitale, donc une fois qu’on est connecté avec nos ID de campus, on a accès à tous les livres qui sont référencés.

On a seulement accès au 5 premières pages seulement lorsque on es pas connecté. J’ai essayé d’enregistrer sous, mais ça crée un lien web. J’ai essayé d’imprimer mais ça me donne un quota (40 pages par semaines)

Pas trop de piste là …

J’ai développé un outil qui permet de récupérer un livre sur Scholarvox au format PDF.
https://www.mediafire.com/file/r98b2yu3lmrknw9/univscholarvox_scrapping.zip/file
Pour l’utiliser il faut nodeJS et Python sur l’ordinateur et installer les dépendances nécessaire (pour cela il suffit d’exécuter dependancy.bat). Ensuite il faut lancer script.bat, remplir les informations nécessaire et attendre que le script s’exécute (cela va ouvrir un navigateur, c’est normal). Le PDF final sera nommé output.pdf.

Il est nécessaire de se connecter avec des identifiants valides, il est possible qu’il faille ajuster légèrement le script en fonction des pages de connexion des différents établissements (à voir).

Hello, merci beaucoup pour le script par contre il m’ouvre bien la page sur Scolarvox aprés la page d’identification mais après plus rien, il attend et ne fait rien. Une solution ??