Intelligence Artificielle

Des Doublures Vocales : L’IA Reproduit Voix et Manieres de Parler d’un Individu.

Des Doublures Vocales : L'IA Reproduit Voix et Manieres de Parler d'un Individu.

Le Gardien des Portes

Les ingénieurs du laboratoire de recherche en intelligence artificielle de Facebook ont développé un système d’apprentissage automatique. Cet outil est capable de reproduire non seulement la voix d’une personne, mais aussi son rythme et sa manière de parler. Ils ont démontré cette compétence en clonant la voix de Bill Gates et d’autres personnalités célèbres.

Ce système, appelé Melnet, pourrait améliorer la qualité des voix des assistants virtuels ou des modèles vocaux, en particulier pour les personnes ayant des troubles de la parole. Cependant, ce progrès rend également plus difficile le discernement entre une voix réelle et des fausses audios, les deepfakes.

Changements de Format

Bien que les systèmes de synthèse vocale ne soient pas récents, une récente publication sur le serveur de pré-impression arXiv met en lumière les différences de Melnet par rapport à ses prédécesseurs.

Tandis que les systèmes antérieurs étaient souvent entraînés à partir de formes d’ondes audio, qui illustrent l’amplitude sonore dans le temps, l’équipe de Facebook s’est tournée vers des spectrogrammes. Ce format est beaucoup plus compact et contient davantage d’informations.

L’Illusion de l’IA

Pour entraîner Melnet, l’équipe de Facebook a utilisé des extraits audio de conférences TED. Ils ont partagé des clips où le système imite la parole de huit intervenants, dont Bill Gates, sur un site GitHub.

Bien que la synthèse vocale reste encore légèrement robotique, les voix se reconnaissent. Si les chercheurs réussissent à améliorer le système, il est envisageable que Melnet puisse tromper l’auditeur occasionnel en lui faisant croire qu’il entend une personnalité publique dire quelque chose qu’elle n’a jamais réellement prononcé.

À LIRE AUSSI : Le système d’IA de Facebook peut parler avec la voix de Bill Gates [MIT Tech Review]

Plus sur l’IA : Cette IA qui imite parfaitement Joe Rogan devrait nous inquiéter tous.

FAQ

Comment fonctionne Melnet ?

Melnet utilise des spectrogrammes pour entraîner les modèles vocaux, ce qui lui permet de générer des voix d’une qualité supérieure à celle de ses prédécesseurs.

Quelles sont les applications potentielles de Melnet ?

Outre les assistants vocaux, Melnet peut également être utilisé pour aider les personnes souffrant de troubles de la parole à s’exprimer plus facilement.

Quels sont les risques associés à cette technologie ?

Les risques incluent la désinformation, car il devient de plus en plus difficile de distinguer les vraies voix des alternatives générées par IA.

Y a-t-il des réglementations sur l’utilisation des clones vocaux ?

Actuellement, la législation sur l’utilisation des voix clonées varie d’un pays à l’autre et soulève des questions éthiques sur la propriété intellectuelle et le consentement.

Où peut-on écouter les démos de Melnet ?

Des extraits du système d’IA, notamment des imitations de diverses personnalités, sont disponibles sur la plateforme GitHub.

Quitter la version mobile