Certains de ces sites proposent du contenu structuré et d’autres moins structuré.
L’objectif est de vérifier s’il est techniquement possible d’extraire les articles depuis l’ensemble de ces sources, avec les métadonnées suivantes lorsque disponibles :
Contenu complet de l’article
URL source
Auteur
Date de publication
Sujet ou catégorie
Titre
Tous les tags ou mots-clés disponibles
Il doit y avoir environ 50 000 à 100 000 articles.
Quel outil ou combinaison d’outils pourrait faire le job efficacement ?
PS 1 :
Créer des flux RSS demande du setup si y en a pas sur le site que tu veux suivre. Peut-être que depuis avec l’IA y a des solutions plus simples.
PS 2 :
Inoreader permet aussi de créer des flux si y en pas, mais y a des limites même sur le plan payant.
En gratuit c’est 150 flux que tu peux suivre.
PS 3 :
Pour les plugins, ça se trouve en GPL gratos, mais peut contenir des virus. Mais intéressant pour tester ça dans un InstaWP. Attention donc à tes clés API tout de même si t’en mets dans les plugins en question (clé OpenAI par ex).
PS 4 : Peut-être aussi moyen dorénavant avec l’IA via des outils comme firecrawl.dev par exemple, orchestré avec Flowise ou n8n (Agents IA)
Vu le nombre de sites, il faut automatiser le plus possible…
Ce que je ferais : un premier traitement qui identifie les site_map (en auto, puis à la main s’il en reste peu)
Pour chaque sitemap (et les enfants) déterminer le sous-domaine ou la racine commune à tout les contenus de type « article » (voir les mots clefs, les dates qui changent souvent etc…)
Et ensuite récupérer le contenu de chacun.
Mais je pense qu’il y aura une phase obligatoire de nettoyage de ce que tu auras obtenu, si tu veux uniquement le contenu…
Techniquement : oui. La question c’est surtout quel temps y passer VS la part que tu es prêt à ne pas traiter…