Quel outil pour du Speech-to-Text en Real-Time?

Hello,
Je cherche un outil de Speech-to-Text temps-réel, pour de l’anglais déjà et encore mieux si FR aussi.

J’ai regardé différents outils, j’ai l’impression que WhisperAI est très précis mais je n’ai pas l’impression qu’ils permettent la transcription en temps-réel?

L’idée serait de pouvoir run le tool en local depuis l’ordi, sinon via une extension chrome.
Connaissez-vous des outils performants?

Merci à vous,
M.

Bonjour, normalement avec Whisper tu peux faire du real-time. Il suffit de bien adapter ton algo. Mais t’aura quand même des délais négligeables. Actuellement, Whisper est le meilleur modèle OpenSource pour faire du STT. Mais je pense qu’il doit y avoir d’autres services qui le font aussi. Tu peux aussi voir du côté d’Amazon Transcribe: https://aws.amazon.com/fr/transcribe/?p=ft&c=ml&z=3

Word le propose dans sa dernière version. :slight_smile:

1 « J'aime »

Effectivement! Je viens de tester et le rendu est plutot bon :ok_hand:

Ok je vais creuser - merci bcp - Penses-tu qu’il est possible de laisser un audio via WhatsApp et que l’audio soit ensuite envoyé via API pour être converti en Texte dans la même conversation WhatsApp ?

1 « J'aime »

Bonjour, je n’ai jamais utilisé l’API de WhatsApp, mais s’il est possible d’envoyer des messages dans une conversation via l’API, il est donc possible de récupérer la transcription et de l’ajouter à la conversation. Donc, oui, c’est tout à fait possible. Cependant, il faut s’assurer que WhatsApp permet l’envoi de messages dans une conversation via son API.

Ainsi, chaque fois qu’un audio est envoyé dans la conversation, tu peux récupérer l’audio via l’API de WhatsApp, puis l’envoyer à ton API de STT pour obtenir la transcription, et finalement envoyer cette transcription dans la même conversation via l’API de WhatsApp.

1 « J'aime »