Hello @vivien_gaillard
Tu peux passer par https://replicate.com/ sinon. Tu peux payer soit au token soit au temps d’exécution serveur selon ce qui t’arrange.
Tu peux peut-être aussi passer par ça si tu veux pas t’embêter :
Le LPU (Language Processing Unit) de Groq
Avec le développement de son LPU (Language Processing Unit), Groq promet une exécution des modèles d’IA, notamment des modèles de langage comme ChatGPT, jusqu’à dix fois plus rapide que les solutions actuelles basées sur les GPU. Mieux encore, le rapport prix-performance serait 100 fois meilleur que celui de Nvidia. Source : Frandroid
Ils sont apparemment plus de 2x moins cher que la concu pour la partie API qu’ils proposent.
cc @josselin qui est en plein dedans tout ça et qui pourrait peut-être donner des pistes intéressantes.
C’est vrai tu ne paieras pas l’API mais tu paieras le VPS, ça revient un peu au même. Surtout si ton VPS tourne en continu vs un serveur spécialisé qui tournera uniquement quand tu en as besoin
Alors j’ai installé ollama notamment avec open-ui sur une machine avec 16 GO de RAM et un peu de GPU, c’est quand même très lent.
Et je confirme pour le prix d’hébergement du VPS et du temps, le service OpenAI reste moins chère !
D’ailleurs, j’ai vu passer ça, ça se fait des rig IA et plus des rig crypto
Naturally the most important aspect to look for is the GPU VRAM . For LLMs I recommend at least 24 GB memory and for computer vision tasks I wouldn’t go below 12 GB.