Skip to main content

Le système de reconnaissance vocale de Microsoft est maintenant aussi précis qu’un être humain, selon la société.

La reconnaissance vocale de Microsoft, conçue pour reconnaître avec précision les mots dans une conversation comme les humains , a atteint un taux d’erreur de 5,1%, son plus bas taux jusqu’à présent.

Cette étape signifie que, pour la première fois, un ordinateur peut reconnaître les mots dans une conversation aussi précisément qu’un humain. « Notre équipe de recherche a atteint ce taux d’erreur de 5,1% avec notre système de reconnaissance vocale, une nouvelle étape dans l’industrie, dépassant sensiblement la précision que nous avons obtenue l’année dernière », a déclaré Microsoft dans un billet de blog publié dimanche.

L’année dernière, en octobre, l’équipe Artificial Intelligence and Research de chez de Microsoft a rapporté un système de reconnaissance vocale qui commet les mêmes erreurs ou moins que les transcripteurs professionnels.

Les chercheurs ont alors signalé un taux d’erreur de mot (WER) de 5,9%.

« L’année dernière, le groupe de recherche de Microsoft a annoncé une étape importante pour parvenir à la parité humaine sur le système de reconnaissance vocale conversationnelle » Switchboard « , c’est-à-dire que nous avions créé une technologie qui reconnaissait des mots dans une conversation aussi bien que des transcripteurs humains professionnels »
, a déclaré Xuedong Huang, Technical Fellow, Microsoft.

«Switchboard» est un corpus de conversations téléphoniques enregistrées que les scientifiques en charge de la reconnaissance vocale utilisent depuis plus de 20 ans pour comparer les systèmes de reconnaissance vocale.

La tâche consiste à transcrire des conversations entre des étrangers sur des sujets tels que le sport et la politique.

L’équipe a utilisé « Microsoft Cognitive Toolkit 2.1 » (CNTK), le logiciel de deep learning le plus évolutif disponible, pour explorer les architectures de modèles.

De plus, l’investissement de Microsoft dans l’infrastructure du cloud computing, en particulier les GPU Azure, a contribué à améliorer l’efficacité et la rapidité.

Atteindre la parité humaine avec une précision à égalité avec les humains a été un objectif de recherche depuis 25 ans.

« La volonté de Microsoft d’investir dans la recherche à long terme paie désormais pour nos clients dans des produits et des services tels que Cortana, Presentation Translator et Microsoft Cognitive Services », a déclaré la publication. « Passer de la reconnaissance à la compréhension du discours est la prochaine grande frontière pour la technologie », a ajouté le message.