Scraping Notion.so

Bonjour à tous,

Sauriez-vous comment on peut scraper les pages publiques notion en read-only? (ie celles qui n’ont pas le bouton Duplicate sur la fenêtre xxxx.notion.site)

:pray::pray::+1::+1:

2 « J'aime »

Edit 2 : Voir solution plausible

Edit : ne fonctionne pas avec Notion ou il faut trouver les bons paramètres httrack

Tu peux tenter avec ça :

As-tu un exemple ?

Comme tu peux le voir il n’y a pas l’option « duplicate » dans le top-right corner

Et dans cette page, qu’aimerais-tu récupérer ?
Sous quelle forme ?

vous pouvez utiliser des outils de scraping comme octoparse pour télécharger tout le contenu sur cette page web, texte, lien, image ou d’autres.
il suffit de
entrer le lien, sélectionner ce dont vous avez besoin, cliquer sur « extract data », c’est fait.
c’est facile et je vous invite à l’essayer, c’est plus facile que vous le pensez. Voici une petite introduction

Sous le format d’une page Notion…

Pas simple…
Tout est chargé dynamiquement.
S’il n’y a pas de fonction native pour reprendre le contenu, il faut utiliser un outil qui charge le js pour que la page soit rendue correctement et ensuite récupérer le contenu et le rebasculer dans un autre notion.
Je n’ai pas de solution évidente à proposer…

2 « J'aime »

Merci pour la réponse super utile (ce n’est pas ironique)

Mieux vaut tard que jamais, @Morph a raison et c’est du dynamique, je n’avais pas réussi avec Httrack.

Pour scrap une page y a éventuellement des générateur de site à partir d’un quelconque lien Notion même sans droit de duplication (comme super.so) qui permettent de le faire :

Le Notion test (sans droit de duplication)
:point_right: Le rendu du Notion protégé en site Super.so
Je pense que ensuite httrack fonctionnera sur ce site généré à partir de Notion pour télécharger cela en local