Intelligence Artificielle

Vers une indistinction entre la voix humaine et l’intelligence artificielle

Vers une indistinction entre la voix humaine et l'intelligence artificielle

La Voix de l’IA

En 2016, le laboratoire de recherche en intelligence artificielle d’Alphabet, la société mère de Google, a introduit un système de synthèse vocale appelé **WaveNet**. Celui-ci repose sur un réseau de neurones artificiels, conçu pour générer des échantillons vocaux d’une qualité largement supérieure à d’autres méthodes existantes. Ainsi, la voix générée par l’IA devient de plus en plus humaine.

Depuis, WaveNet a bénéficié d’améliorations significatives, qui lui permettent de fonctionner de manière fluide avec Google Assistant sur de multiples plateformes.

WaveNet a franchi une nouvelle étape en 2018 avec l’implémentation d’un système de synthèse vocale appelé **Tacotron 2**. Ce dernier représente la deuxième génération de l’intelligence artificielle de Google pour la synthèse vocale, combinant les réseaux de neurones profonds de Tacotron 2 avec ceux de WaveNet.

Le fonctionnement de Tacotron 2 est simple : il transforme le texte en une représentation visuelle des fréquences sonores, nommée **spectrogramme**. Ce spectrogramme est ensuite analysé par WaveNet, qui produit un graphique contenant les éléments audio correspondants.

Les résultats de cette recherche montrent que le **score moyen d’opinion** (MOS) du modèle est de 4,53, très proche de celui de 4,58 attribué à des enregistrements réalisés par des professionnels. En d’autres termes, le son produit par ce système s’apparente beaucoup à celui d’un locuteur humain.

A lire :  Sam Altman Met Fin aux Questions sur Q*

En effet, lorsque Google a comparé des enregistrements d’un humain et ceux de son IA, il est souvent difficile d’identifier lequel provient de la machine et lequel vient de la personne.

Écoutez un échantillon ci-dessous :

Système de Synthèse Vocale

À ce jour, les systèmes d’intelligence artificielle ont considérablement progressé dans la capacité à rendre floues les frontières entre l’humain et la machine. Actuellement, certaines IA peuvent générer des images réalistes de personnes fictives, et d’autres sont capables de produire des vidéos truquées. De plus, certaines IAs se perfectionnent dans l’art de la narration et la création artistique.

Jusqu’à présent, imiter la parole humaine représentait un défi pour les réseaux d’intelligence artificielle. Avec **WaveNet** et **Tacotron 2**, nous assistons à une évolution impressionnante dans ce domaine. Ces modèles non seulement prononcent clairement les mots, mais gèrent aussi aisément les termes difficiles ainsi que les nuances de ton, en fonction de la ponctuation.

Cependant, il ne faut pas oublier que cette nouvelle technologie n’est pas encore parfaite. La version actuelle utilise uniquement une voix féminine, enregistrée par Google avec l’aide d’une personne spécifiquement choisie. Pour que le système fonctionne avec d’autres voix, comme celles d’hommes ou d’autres femmes, un nouvel apprentissage serait nécessaire.

En outre, cette avancée pourrait avoir des applications immédiates pour Google Assistant. Si le système Tacotron 2 est perfectionné, il pourrait jouer un rôle dans divers emplois, ajoutant à la liste croissante des métiers susceptibles d’être remplacés par l’IA.

FAQ

Qu’est-ce que WaveNet ?

WaveNet est un système de synthèse vocale développé par Google, qui utilise un réseau de neurones pour produire une voix humaine de manière réaliste.

A lire :  Une Tempête de Cris : Le Stream d'‘Family Guy’ Boosté par l’IA
Comment fonctionne Tacotron 2 ?

Tacotron 2 convertit le texte en un spectrogramme, qui est ensuite interprété par WaveNet pour créer une voix synthétique.

Quels sont les enjeux éthiques de l’IA vocale ?

Les systèmes d’IA vocale soulèvent des préoccupations en matière de biais, de sécurité des données et d’utilisation abusive des fausses représentations.

Les systèmes d’IA vocale remplacent-ils les emplois ?

Bien que la technologie puisse automatiser certains aspects des emplois, elle peut également créer de nouvelles opportunités et rôles dans le développement et la maintenance de l’IA.

Quelle est l’avenir des IAs en matière de voix ?

Il est probable que les futures IAs en matière de voix devienne encore plus naturelles et polyvalentes, rendant leurs applications encore plus larges et intégrées dans notre vie quotidienne.