Meilleur outil ou combinaison d'outil pour scraper les articles de news

Bonjour à tous,

Je souhaite récupérer les articles de news sur environ 1 000 sites web, répertoriés dans le fichier suivant :

https://docs.google.com/spreadsheets/d/16F80QwcWbYXY_atisj__mUtx4SFV7g66RWcYMRE_y2w/edit?usp=sharing

Certains de ces sites proposent du contenu structuré et d’autres moins structuré.

L’objectif est de vérifier s’il est techniquement possible d’extraire les articles depuis l’ensemble de ces sources, avec les métadonnées suivantes lorsque disponibles :

  • Contenu complet de l’article
  • URL source
  • Auteur
  • Date de publication
  • Sujet ou catégorie
  • Titre
  • Tous les tags ou mots-clés disponibles

Il doit y avoir environ 50 000 à 100 000 articles.

Quel outil ou combinaison d’outils pourrait faire le job efficacement ?

Merci pour votre aimable support.

Hello @Jaouad,

Je tenterai de partir sur un Inoreader pour récupérer ça en flux RSS pour ceux qui en ont un existant.

Si pas de flux RSS tu peux le créer. J’utilisais ça à l’époque, mais c’est payant :
https://politepol.com/en/

OU

Tu utilise FreshRSS gratos en auto hébergement et qui permet aussi de créer les flux RSS pour les pages qui n’en ont pas.

OU

Tu peux aussi te bricoler ça avec un Wordpress. Avec un truc comme ça par exemple :
https://fr.wordpress.org/plugins/wp-rss-aggregator/

:warning: Je ne connais pas ton objectif précis , mais tu semble vouloir faire de la news en auto.

Regarde Wordpress Automatic Plugin ou encore le portfolio de Coderevolution, ça devrait vraiment t’intéresser.

PS :

PS 1 :
Créer des flux RSS demande du setup si y en a pas sur le site que tu veux suivre. Peut-être que depuis avec l’IA y a des solutions plus simples.

PS 2 :
Inoreader permet aussi de créer des flux si y en pas, mais y a des limites même sur le plan payant.
En gratuit c’est 150 flux que tu peux suivre.

PS 3 :
Pour les plugins, ça se trouve en GPL gratos, mais peut contenir des virus. Mais intéressant pour tester ça dans un InstaWP. Attention donc à tes clés API tout de même si t’en mets dans les plugins en question (clé OpenAI par ex).

PS 4 : Peut-être aussi moyen dorénavant avec l’IA via des outils comme firecrawl.dev par exemple, orchestré avec Flowise ou n8n (Agents IA)

Vu le nombre de sites, il faut automatiser le plus possible…
Ce que je ferais : un premier traitement qui identifie les site_map (en auto, puis à la main s’il en reste peu)
Pour chaque sitemap (et les enfants) déterminer le sous-domaine ou la racine commune à tout les contenus de type « article » (voir les mots clefs, les dates qui changent souvent etc…)
Et ensuite récupérer le contenu de chacun.

Mais je pense qu’il y aura une phase obligatoire de nettoyage de ce que tu auras obtenu, si tu veux uniquement le contenu…

Techniquement : oui. La question c’est surtout quel temps y passer VS la part que tu es prêt à ne pas traiter…

Merci Kevin pour cette mine d’or d’info.

J’ai essayé avec qq apps RSS : ils te donnent uniquement l’URL et pas le contenu de l’article.

L’objectif est de collecter les articles, les nettoyer et les analyses avec l’IA.

C’est vraiment pas simple…

1 « J'aime »

Avec plaisir @Jaouad :wink:

J’y avais pas pensé, il limite je pense, y a des contournements, voir ce post par exemple :
https://www.reddit.com/r/InoReader/comments/h9iypt/automatically_load_full_rss_article/

Dans ce cas faut voir si c’est possible, ou peut-être te faire tes flux RSS et check si ça charge bien tout le contenu.

Ou alors en deux temps, check si y a de nouveaux articles grâce au flux et RSS et aller parse l’article autrement,

Mais là tu t’aventures où je ne suis jamais allé, good luck et preneur de ton retour :wink: