Comment Scraper Scholarvox?

Hello les gens,

J’ai accès à ScholarVox qui est une bibliothèque en ligne avec plusieurs livres intéressants mais que l’on peut uniquement lire en ligne, on ne peut pas les télécharger ou imprimer.

J’ai essayé toutes les astuces possibles pour l’imprimer ou l’extract en word mais je n’ai pas réussi.

Je viens donc vers vous pour savoir si un de vous a réussi cet exploit ?

NB: Je recherche à imprimer ces livres en pdf pour des raisons personnelles, c’est toujours mieux de lire sur du papier :slight_smile:

1 « J'aime »

Hello,

Pour ceux qui n’ont pas d’accès à ce site, il faudrait davantage d’informations.

Entre autre, voir quel est le HTML qu’il y a derrière les pages du site, afin de déterminer si le scraping est techniquement faisable :slight_smile:

Hello, c’est vrai que des fois ça peut être utile de pouvoir consulter sur papier certaines pages.
Ce n’est pas de l’HTML simple :-(((
Ca a l’air bien plus compliqué.

Par contre, tout le monde a accès aux premières pages des doc:

www.scholarvox.com/reader/docid/88850163/page/1

Ca vous dit quelques choses, pensez-vous d’avoir une astuce?

Merci d’avance, F.D.

Bonjour,

J’avais trouvé une méthode via firefox mais malheureusement cela ne fonctionne plus. Je up ce sujet qui m’intéresse également.

Hello,

Le sujet m’intéresse aussi, si quelqu’un trouve l’astuce ! Up

" l’imprimer" ???

J’ai sauvé le document. Puis je l’ouvre localement et je l’imprime…

SI tu veux scrapper le contenu, OCR ou un truc de style
$0.innerText sous la console…

Quelque chose doit m’échapper…

Personnellement, je ne souhaite pas l’imprimer juste copier le dossier en format PDF ce que je ne trouve pas. Et si tu exportes le dossier cela copie seulement une partie, idem pour imprimer.
D’ou le besoin de scraping pour récupérer le contenu

il suffit « d’imprimer » au format PDF, ce qui convertira tout document imprimable en PDF.

Mais on ne peut pas faire de miracles: si on vous affiche les N premières pages du livre comme échantillon, on ne pourra imprimer que les N premières pages.

Je débarque un peu, Scholarvox ça me fait penser à z-lib.org , mais en « offre légale » ?

Scolarvox c’est une bibliothèque digitale, donc une fois qu’on est connecté avec nos ID de campus, on a accès à tous les livres qui sont référencés.

On a seulement accès au 5 premières pages seulement lorsque on es pas connecté. J’ai essayé d’enregistrer sous, mais ça crée un lien web. J’ai essayé d’imprimer mais ça me donne un quota (40 pages par semaines)

Pas trop de piste là …