Aller à la navigation Aller au contenu

Intelligence artificielle Une journée dans ma vie: Naviguer dans le monde des technologies de reconnaissance vocale

Barbara
April 24, 2024
4 min.

Aujourd'hui, je me suis plongé la tête la première dans les technologies de conversion de la voix en texte, poussé par la curiosité et - un soupçon? - de nécessité professionnelle.

Ma boîte à outils pour la journée? Un mélange éclectique de solutions: Deepgram Speech-to-text, OpenAI Whisper, AWS Transcribe, Azure Real-time Speech-to-text, Google Speech-to-Text AI, et ... ma tasse de café.

Chacun m'a fait la promesse de transformer mes paroles en texte - comme le café transforme mes pensées endormies en raisonnement cohérent - mais j'ai rapidement découvert que tous les outils ne se valaient pas.


Bienvenue dans ma routine matinale: démarrer du bon pied

Ma matinée a commencé dans une habituelle léthargie, mais avec un sentiment palpable d'anticipation.

La première chose à faire (après avoir bu mon café) était de naviguer dans le processus d'installation de chacun de ces outils.

OpenAI Whisper a été mon premier concurrent. Sa nature open-source promettait une installation simple, et je peux dire qu'il a été à la hauteur de sa réputation. En quelques minutes, j'étais opérationnel. Cependant, il est vite apparu que la transcription en temps réel n'était pas dans son arsenal, un petit revers, mais quand même notable pour ceux qui ont besoin de résultats instantanés.

Ensuite, ce fut au tour de Deepgram, qui s'est avéré être un jeu d'enfant à intégrer. Sa capacité à fournir une transcription en temps réel était impressionnante, et a fixé la barre haute pour ses concurrents. D'un autre côté, AWS Transcribe a mis ma patience à l'épreuve avec ses authentifications manuelles interminables, un contraste saisissant avec l'approche conviviale de Deepgram.

Le service de Google a flanché à l'étape de la démo, laissant beaucoup à désirer, tandis qu'Azure, bien que compétent, n'a pas tout à fait réussi à passer à la phase de test approfondi - pas de rancune ici; nous avons simplement choisi de nous concentrer sur deux concurrents.

L'expérience du midi: essais en temps réél

Au fur et à mesure que la journée avançait - et après mon troisième café - j'ai recentré mon attention sur Deepgram et AWS Transcribe. J'ai orchestré une série de conversations simulées, allant du très basique au plus complexe.

7p9qv7

Deepgram s'est imposé comme le leader incontesté, sa précision ne faiblissant quasiment pas même face au bruit ambiant, un adversaire courant dans les applications du monde réel.

Bien que vaillant dans ses efforts, AWS Transcribe a eu du mal avec la précision, manquant souvent des mots ou interprétant mal des phrases, surtout lorsque le bruit de fond était présent.

Une observation intéressante était la tendance d'AWS Transcribe à réviser ses transcriptions initiales en fonction des entrées ultérieures, une fonctionnalité qui, bien qu'innovante, m'a parfois frustré en raison de ses inexactitudes.

Une après-midi en eaux profondes: personnalisation et intégration

Vous êtes familiers de l'envie irrésistibe de faire la sieste après le lunch? Eh bien, cela ne m'a pas empêché de continuer mes essais.

L'après-midi a été consacrée à pousser ces technologies à leurs limites. J'ai expérimenté avec des vocabulaires personnalisés, différentes qualités de microphone et plusieurs tempos de parole pour voir comment ces outils pouvaient s'adapter.

DM_kN2LX4AIJ4Iv

Deepgram et AWS Transcribe offraient tous deux la possibilité d'intégrer un dictionnaire personnalisé, une fonctionnalité que j'ai trouvée particulièrement utile pour le jargon spécifique à l'industrie.

Cependant, Deepgram s'est démarqué par sa capacité à s'adapter sans problème à ces personnalisations, fournissant constamment des transcriptions précises même dans des conditions difficiles.

La protection des données est une préoccupation majeure dans mon domaine d'activité, ce qui rend l'option d'hébergement autonome offerte par Deepgram et OpenAI Whisper particulièrement attrayante. Cette fonctionnalité garantit que les données sensibles restent dans les limites de notre réseau, une considération cruciale pour toute organisation qui accorde la priorité à la sécurité des données.

🥖 En français, s'il vous plaît!

Comment s'est passée la transcription en français? Eh bien, elle a de la marge pour s'améliorer. Il est difficile d'interpréter correctement les mots prononcés avec un accent québécois, et les tests ont été non concluants pour des mots similaires, comme "quel" et "quelque". Néanmoins, nous avons un gagnant, et c'est Deepgram. La transcription était meilleure et plus rapide (comparée à Transcribe), c'est donc un "OUI" clair pour nous. 

Réflexions du soir: tirer des conclusions

Alors que la journée touchait à sa fin, j'ai réfléchi aux enseignements tirés de cette plongée en profondeur dans les technologies de conversion de la voix en texte (j'ai aussi rêvé de la pizza que j'allais commander, mais c'est une autre histoire).

La facilité d'installation et la précision de Deepgram et OpenAI Whisper sont des caractéristiques qui distinguent ces outils de leurs pairs.

En ce qui concerne le rapport coût-qualité, Deepgram et Azure offrent le meilleur rapport qualité-prix, fournissant des services de transcription de haut vol sans faire exploser le budget.

Malgré son coût plus élevé, AWS Transcribe n'a pas atteint les mêmes normes de précision, ce qui en fait une option moins attrayante.

Le verdict final

Après une journée remplie d'exploration et d'expérimentation - et de trop nombreux snacks - mon choix était clair : Deepgram, avec son service en temps réel, sa supériorité en matière de précision et son prix compétitif, s'est imposé comme le gagnant.

Mais ce voyage ne visait pas seulement à trouver le bon outil ; il était un rappel des incroyables avancées de l'IA et du potentiel de ces technologies pour révolutionner la façon dont nous interagissons avec les plateformes numériques.

Merci de m'avoir suivi dans cette aventure. Maintenant, il est temps de déguster ma pizza. 🍕

P.S. Au moment de la publication, je n'ai pas encore testé le nouveau joueur, AssemblyAI. Je vous reviendrais sur ce point. 😉

Mentions:

Deepgram Speech-to-text, OpenAI Whisper, AWS Transcribe, Azure Real-time Speech-to-text, Google Speech-to-Text AI.

Bâtissons votre avenir dès maintenant!
Bâtissons votre avenir dès maintenant!