Outil OCR / SpeechToText

Bonjour,
Je cherche un outil type OCR et/ou SpeechToText performant.
J’ai testé plusieurs solutions gratuites : pas franchement convaincu par le résultat (façon la dictée dans Word :joy: ou dans Google Docs :lying_face: ).
Si un vrai retour d’expérience parmi vous, j’aurai des questions sur le temps passé approximativement pour avoir un process qui prenne pas des plombes pour 3 lignes de texte.
Rien trouvé à ce sujet dans la ToolBox de @camillebesse
Merci de votre aide.

1 J'aime

Avec Watson Speech-to-Text IBM a une solution assez simple à mettre en place.

En ayant essayé plusieurs intégrées dans un scénario d’automation, l’API de Watson était la plus simple à mettre en place.

Ensuite le résultat de la transcription dépend énormément de la qualité de l’enregistrement. Globalement on arrive à bien comprendre le sens de la phrase, mais quelques mots sautent.
Au pire, avec le transcription, l’API renvoi un score de confiance dans le travail effectué.

2 J'aimes

Merci. Je vais regarder de ce pas.

Hello,

Je n’ai pas de retour d’expérience dessus mais je sais que Google Cloud le propose :

2 J'aimes

Merci pour l’info. Je vais regarder aussi.
Mais je cherche quelque chose de plus simple. Je me suis peut être mal exprimé au départ.
Style appli sur téléphone dans l’idéal.
Je ne cherche pas à transcoder du podcast en texte bien que cela pourrait être intéressant.
J’ai cherché mais je n’avais rien trouvé d’un bon niveau.
Je précise mon objectif : lire un texte et le voir retranscrit simplement et rapidement mais sans trop de faute (entre 5 et 10% d’erreur serait un bon niveau).
Désolé si je me suis mal fait comprendre.
Et merci tout de même à ceux qui m’ont répondu.

1 J'aime

Bonjour,

Un ami à moi fait ça, je vais lui demander :wink:

Bonne journée

Merci de ton aide.

Nuance fonctionne bien de mémoire.

Le TTS de Google me semble être une bonne solution, avec ou sans API.

Aille, tu veux du STT, j’avais mal lu désolé…

hello, j’ai utilisé Uberi dans un projet de commande vocale et il m’a bien dépanné.

J’ai beaucoup de mal à tester ce projet. Problème avec la librairie PortAudio que l’on doit compiler pour obtenir une version en DLL x64 pour Windows 10. Légère impression de tirer un fil et d’avoir la pelote entière qui veut venir :roll_eyes:

J’arrive à convertir avec Sphinx et Google Cloud. Mais mon enregistreur vocal ne produit que du M4A et je n’arrive pas à trouver les bons paramètres pour effectuer la conversion. Pas simple tout de même.

Bon je suis passé par un convertisseur M4A -> WAV (mono-canal). Et çà marche. Merci pour votre aide.

Encore moi : si vous avez un équivalent au projet Uberi en OCR, je suis preneur. J’ai essayé OCRmyPDF mais je n’arrive pas à le lancer. Autre projet trouvé sur GitHub : doc2text

Hello, Tesseract Ocr est dans mes marque pages.

Tesseract Ocr semble pouvoir être utilisé comme librairie. Je cherchais un projet Python comme les 2 que j’ai testé. Mais bon je galère un peu … comme d’habitude :pensive:

@easyit as-tu essayé https://www.happyscribe.co/fr ?

Viens de faire le test avec un extrait d’un podcast.
Pas franchement satisfait du résultat. Mais j’ai fait aucun effort de tuning notamment pour la génération du MP3 fait avec Audacity.
Si quelqu’un est intéressé par le résultat de mon test, je peux lui envoyer le MP3 et le fichier TXT résultat.
Entre 12€ et 9.6 €/ heure selon le volume d’heure traduite.

Tu peux peut-être le faire gratuitement si tu as un mac, avec l’outil de développement d’appli.
Je sais que quand tu dev une app sur iOs, tu as accès au même moteur de reco vocale que Siri.

Un ami avait fait en quelques jours une appli de prise de commande vocale en restauration : le flux de voix entrante était automatiquement transformé en texte sans trop d’erreur, tu peux peut être l’utiliser avec des fichiers .mp3 mais rien n’est sûr. Bon courage !