Scrapping/Récupération d’informations via des sites internet

Hello les passionnés de l’extraction de datas,

Je parcours régulièrement ce qui se dit et ce qui se fait, j’ai appris beaucoup grâce à vous.

Mais aujourd’hui, je rencontre un blocage sur un sujet précis.

Mon objectif est d’absorber du contenu textuel depuis des sites internet, notamment des sites d’entreprises. Je cherche à collecter simplement et rapidement le texte de sites d’entreprises.
Je n’ai besoins que des pages présentes dans le header des sites d’entreprises, puis à accéder à chacune de ces pages pour en extraire le contenu textuel (4-5 pages ).

Le défi est de traiter ces informations pour les faire tourner dans ma moulinette interne. Je ne connais pas d’outils qui permettent de capturer facilement et rapidement du texte pour l’envoyer ensuite dans mes prompts Chat GPT.

Je me demande si je devrais simplement sauvegarder des fichiers HTML, étant donné que je suis intéressé uniquement par le texte visible en front. Ou peut-être existe-t-il un outil spécialisé ?

Merci d’avance pour votre aide et bonne journée !

Ronzak

ChatGPT peut aller sur un site internet, tu peux lui demander de te faire un résumé du site en lui donner l’url

Hello,

Merci oui j’ai vu après les infos ne sont jamais correctement collectés et le call api demande pas mal de tokens.

J’opte finalement pour un workflow avec N8N ou je demande dans un script de collecter les données textuelles d’une liste de site et après, je la passe dans mon script chat GPT via l’api.

Merci en tout cas,
Ronzak