Modèle d'IA auto-hébergé

DJousto · Avril 28, 2025, 1:41

Bonjour, je sais que ma question sera un peu en marge du thème de ce forum mais je tente tout de même. Un client pour lequel je travaille cherche à installer un modèle d’IA (genre Mistral) en auto-hébergé afin qu’il tourne sur un réseau interne et qu’il puisse être fine-tuné avec des documents internes. J’ai l’impression que tout cela est encore un peu artisanal et que les compétences sont rares. Avez-vous des retours d’expériences sur le sujet ? connaissez vous des prestataires et/ou des formations sérieuses sur ce sujet ?

Morph · Avril 28, 2025, 4:38

Voir la réponse apportée ici Entrainer Chat GPT à partir de notre propre data - #15 par Morph
mais je pense qu’il faut préciser le besoin. Pour moi tu décris 2 solutions techniques qui ne répondent pas forcément au même besoin.
Et j’espère que ton client a les moyen car auto-héberger un modèle :

soit ça coûte cher
soit c’est un modèle léger (donc limité : ça peut convenir pour certaines taches)
soit les performances sont bof (si tu ne veux pas du temps réel, ça peut le faire)

Et fine-tuner prend aussi du temps machine et des compétences.
D’expérience tu obtiens des résultats aussi bon avec un meilleur ROI en misant sur une architecture RAG. Et pour le coup c’est plus simple à mettre en place et à maintenir…
On peut en reparler si tu veux…

kalek19 · Avril 28, 2025, 9:33

Perso, J’ai déjà utilisé Llama 7b en local sur une machine dédié (mini pc) et lié à une base de donnée vectorielle. ça prend tellement de processus que ça me mettait 5 min juste pour me répondre à une question simple. Il faut beaucoup de mémoire GPU pour les IA.

J’ai abandonné et j’utilise des systèmes RAG avec mes documents dans une base de donnée vectorielle supabase et lié à l’API open AI. C’est top comme ça (quelques secondes pour me répondre).

Comme dit plus haut, tout dépend du besoin client

La machine pour faire tourner le modèle peut avoir un coût conséquent en matériel et énergie.

DJousto · Avril 29, 2025, 7:05

Pour l’instant j’identifie deux besoins :

assistant programmation / développement d’application, qui serait entrainé sur les repos de code de l’entreprise, en plus de son entrainement initial (en général stackoverflow et compagnie)
assistant classique / chat sur des questions liées au métier de l’entreprise, là le chat se baserait sur les documents d’entreprise, les études, specs, …

et le client a prévu si besoin de mettre en place un serveur avec la ou les cartes graphiques appropriées et suffisamment de RAM et CPU … pour l’instant on dégrossi vraiment le sujet

Morph · Avril 29, 2025, 4:49

Il faut dégrossir un peu plus le besoin, mais je ne suis pas sur qu’il y ai un énorme intérêt à faire un entrainement sur ses repos.
Un peu d’inspiration ici si tu veux.

ça c’est typiquement un use-case pour du RAG, même c’est auto-hébergé, c’est (pour le moment) mieux que du fine-tuning

conquering_lion · Mai 4, 2025, 9:05

hello

je me suis installé GPT4ALL, c’est un truc qui permet justement d’utiliser des modeles récupérables en ligne… là je dois avoir deepseek et d’autres trucs d’installés … linux c mieux pour faire tourner ce genre de trucs malgré tout

ensuite pour finetuner un modele il te faut un dev python et construire la BDD en input donc qd meme un peu de taff

j’ai pas un gros gros PC sinon 32GO de RAM et 12GO de GPU et ca tourne

mais sinon en VPS tu peux en trouver avec pas mal de RAM

DJousto · Mai 5, 2025, 10:05

ok merci à tous je pense que je vais m’orienter vers Ollama / open web ui pour l’IHM et du RAG pour les données d’entreprise, avec certainement un moteur qui sera un assistant pour les devs et un autre qui sera plutot un assistant classique pour de la rédaction de texte / mails …
quoi qu’il en soit il y a un gros travail préalable pour trier et mettre au propre les documents qu’on va utiliser.