Hello les passionnés de l’extraction de datas,
Je parcours régulièrement ce qui se dit et ce qui se fait, j’ai appris beaucoup grâce à vous.
Mais aujourd’hui, je rencontre un blocage sur un sujet précis.
Mon objectif est d’absorber du contenu textuel depuis des sites internet, notamment des sites d’entreprises. Je cherche à collecter simplement et rapidement le texte de sites d’entreprises.
Je n’ai besoins que des pages présentes dans le header des sites d’entreprises, puis à accéder à chacune de ces pages pour en extraire le contenu textuel (4-5 pages ).
Le défi est de traiter ces informations pour les faire tourner dans ma moulinette interne. Je ne connais pas d’outils qui permettent de capturer facilement et rapidement du texte pour l’envoyer ensuite dans mes prompts Chat GPT.
Je me demande si je devrais simplement sauvegarder des fichiers HTML, étant donné que je suis intéressé uniquement par le texte visible en front. Ou peut-être existe-t-il un outil spécialisé ?
Merci d’avance pour votre aide et bonne journée !
Ronzak