DeepMind : L’I.A de Google a maintenant une voix presque humaine

Par

le

Google DeepMind a annoncé une nouvelle méthode de génération de la parole, WaveNet, qui permet à l’I.A de Google d’avoir maintenant une voix presque humaine.

Google a franchi une nouvelle étape dans son projet d’intelligence artificielle (A.I.) DeepMind. La société a développé une technologie qui peut imiter le son de la voix humaine.

Surnommée WaveNet, la percée a été décrite comme un réseau neuronal profond qui peut générer des formes d’ondes audio brutes pour générer la parole. D’après Google, cette avancée pourrait battre les systèmes de synthèse vocale existants.

Selon les chercheurs de l’unité WaveNet basée en Grande-Bretagne, l’écart entre le discours généré de la machine et celui d’un être humain est d’environ 50 pour cent.

Ce qui est aussi intéressant à propos de la technologie WaveNet est qu’elle est capable d’apprendre des voix différentes et des modèles de discours au point de pouvoir même simuler les mouvements de la bouche, la respiration, les émotions, les flexions de langue et même les accents.

« Un seul WaveNet peut capturer les caractéristiques de nombreux intervenants avec la même fidélité, et peut basculer entre eux en se conditionnant sur l’identité du locuteur», ont écrit les chercheurs dans un document.

WaveNet est actuellement capable d’utiliser l’anglais et le chinois. Il peut également produire de la musique tels que des morceaux de piano classique et composer ses propres chansons.

L’importance de la récente percée de l’I.A. de Google repose sur l’énorme quantité de données requises pour atteindre sa qualité technologique actuelle. Pour mettre cela en contexte, il faut se rappeler que la plupart des technologies de synthèse vocale générée par ordinateur sont basées sur la collecte d’énormes quantités d’enregistrements sonores humains.

Google utilise l’A.I. pour relever le défi, en choisissant une approche appelée modélisation audio brute, basée sur les technologies appelées PixelRNN et PixelCNN. Le nouveau système nécessite au moins 16.000 morceaux différents d’échantillons par seconde, ce qui implique l’utilisation d’une énorme puissance de calcul, ont précisé les créateurs de WaveNet dans un billet de blog. Le système devait être formé pour produire des énoncés et identifier le contexte, entre autres. Au total, l’algorithme WaveNet requiert 44 heures d’échantillons de sons, enregistrés par plus d’une centaine d’intervenants.


Articles recommandés