Intelligence Artificielle

La Réplique Vocale Instantanée : Le Google de Chine Éclipse la Technologie Vocales en Quelques Secondes.

La Réplique Vocale Instantanée : Le Google de Chine Éclipse la Technologie Vocales en Quelques Secondes.

Mimétisme de l’IA

Une avancée notable

Baidu, souvent considéré comme le Google chinois, vient de publier un document de recherche sur ses avancées en intelligence artificielle (IA). Ce logiciel innovant peut reproduire des voix après avoir analysé un court extrait audio de seulement quelques secondes, grâce à un réseau de neurones. Ce programme ne se contente pas de reproduire une voix; il est également capable de modifier l’intonation pour imiter un autre genre ou accent.

Écoutez les exemples

Vous pouvez écouter certaines des voix générées ici, disponibles sur GitHub.

Évolution de la technologie

Les versions précédentes de cette technologie nécessitaient des échantillons audio plus longs pour réussir le clonage de voix. En 2017, l’équipe de recherche Baidu Deep Voice a présenté une technologie qui pouvait cloner des voix après avoir étudié 30 minutes de matériel audio. De son côté, Adobe a développé un programme, VoCo, qui fonctionnait avec seulement 20 minutes d’enregistrement. Un start-up canadien, Lyrebird, est capable de réaliser cette tâche en à peine une minute. L’innovation de Baidu a considérablement réduit cette durée à quelques secondes.

Applications potentielles

Bien que cette technologie puisse sembler être une simple amélioration d’outils des années 90, comme ceux popularisés par des films tels que Maman, j’ai raté l’avion 2 et la franchise Scream, elle offre aussi des perspectives fascinantes et nobles. Imaginez pouvoir entendre votre enfant se faire lire une histoire dans votre voix alors que vous êtes éloigné ou permettre à une personne ayant perdu sa voix d’entendre une version du son qu’elle reconnaît. Cette IA pourrait également servir à créer des assistants numériques plus personnalisés ou à améliorer les services de traduction qui sonnent plus naturellement.

A lire :  Un TikTokeur Trompe Ses Abonnés en Se Faisant Passer pour un Personnage en CGI.

Risques associés

Cependant, une telle technologie présente également des risques de mauvaise utilisation. Selon New Scientist, le programme de Baidu a démontré sa capacité à tromper des logiciels de reconnaissance vocale avec une précision supérieure à 95 % lors de tests. Les tests réalisés par des humains ont même attribué une note de 3,16 sur 4 à la voix clonée. Cela ouvre la porte à des formes de fraude assistées par l’IA.

Des vidéos créées par IA

Des programmes existent déjà pour utiliser l’IA afin de remplacer ou d’altérer, voire de générer des visages de personnes dans des vidéos. Actuellement, cette technologie est principalement utilisée sur internet pour le divertissement, en insérant des visages de célébrités, comme Nicolas Cage, dans des films comme Le Seigneur des Anneaux. En combinant cela avec des systèmes capables de cloner des voix, il est facile d’imaginer une prolifération de fausses informations, montrant des figures politiques dans des situations déconcertantes ou exprimant des opinions qu’elles ne soutiendraient jamais.

Les conséquences de la désinformation

Il est déjà simple de manipuler l’opinion publique à l’aide de mots ou d’outils comme Photoshop. Avec la technologie actuelle, le potentiel de désinformation pourrait devenir encore plus problématique si ces outils tombent entre de mauvaises mains.

FAQ

Pourquoi le clonage vocal est-il utilisé ?
Le clonage vocal est utile pour créer des assistants virtuels, reproduire des voix pour des personnes souffrant de troubles de la communication, et personnaliser l’expérience utilisateur dans les technologies vocales.

Quels sont les enjeux éthiques ?
Les enjeux éthiques incluent le risque de fraude, la manipulation de l’opinion publique, et la création de faux enregistrements qui pourraient nuire à des individus ou à des institutions.

A lire :  Google TV Intègre Prochainement Gemini AI avec des Fonctions Innovantes

Comment fonctionnent ces technologies ?
Ces technologies utilisent des réseaux de neurones, qui apprennent à imiter des voix humaines en analysant des échantillons audio pour capturer les particularités et les nuances vocales.

Qui d’autre utilise cette technologie ?
D’autres entreprises et start-ups dans le domaine de l’IA, comme Adobe avec VoCo et Lyrebird, explorent également des applications similaires pour améliorer la reconnaissance et la synthèse vocale.

Comment cela pourrait-il changer notre quotidien ?
Avec ces avancées, nos interactions avec les technologies vocales pourraient devenir plus naturelles, rendant les conversations avec des assistants IA beaucoup plus réalistes et personnalisées.