Intelligence Artificielle

L’IA Éblouissante Transforme Frank Sinatra en Interprète de “Toxic” de Britney Spears.

L'IA Éblouissante Transforme Frank Sinatra en Interprète de "Toxic" de Britney Spears.

Fin avril, OpenAI, une entreprise spécialisée dans le développement de l’intelligence artificielle, a mis au point une nouvelle **réseau neuronal**, baptisé Jukebox. Ce dernier est capable de créer des **mashups** et de la musique originale imitant le style de plus de 9 000 artistes et groupes.

En parallèle, OpenAI a également proposé une liste de morceaux générés par cet algorithme, transformant la musique en de nouveaux genres ou même réinterprétant les chansons d’un artiste dans le style d’un autre — imaginez un **hybride jazz-pop** entre Ella Fitzgerald et Céline Dion.

Bien que ce soit un exploit technologique impressionnant, l’équipe éditoriale de Futurism a exprimé son insatisfaction à propos des morceaux partagés par OpenAI. Pour tester véritablement ce que l’algorithme pouvait faire, nous avons sollicité CJ Carr et Zack Zukowski, musiciens et experts en informatique derrière le groupe de musique générée par algorithme DADABOTS, avec une demande spécifique : nous voulions entendre Frank Sinatra interpréter “Toxic” de Britney Spears.

Et ils ont vraiment relevé le défi.

Un algorithme capable de composer des œuvres musicales originales dans le style d’artistes existants soulève des questions **légales** et créatives encore inexplorées. Par exemple, les artistes sur lesquels Jukebox a été formé peuvent-ils revendiquer une partie de la **créativité** des pistes générées ? Assiste-t-on à l’aube d’une toute nouvelle ère musicale ?

« Il y a tellement de créativité à explorer ici », a déclaré Zukowski à Futurism.

Ci-dessous, vous pouvez écouter le morceau que nous avons obtenu dans toute sa splendeur générée par l’IA, suivi d’une conversation légèrement modifiée entre Futurism et les musiciens algorithmiques Carr et Zukowski.

Le bot Frank Sinatra chante Toxic de Britney Spears

Futurism : Merci de prendre le temps de discuter avec nous, CJ et Zack. Avant de commencer, j’aimerais en savoir un peu plus sur vous deux et sur votre parcours qui vous a amenés à travailler avec de la musique générée par IA.

Zack Zukowski : Avant tout, nous sommes musiciens. J’ai été impliqué dans la technologie depuis un certain temps. Mes études en apprentissage automatique se sont orientées vers l’audio ; je voulais étendre ce qui était déjà fait dans le domaine de la **synthèse** et de la technologie musicale. Machine learning m’est apparu comme un chemin prometteur, alors j’ai commencé à me familiariser avec ces algorithmes. Nous utilisons principalement SampleRNN, un outil que nous avons beaucoup utilisé pour nos **albums** sur Bandcamp et nos émissions en direct.

CJ Carr : Je suis musicien d’abord, motivé par l’informatique pour apporter de nouvelles choses à la musique. DADABOTS est né de la culture des hackathons. J’ai participé à 65 hackathons, et Zack et moi avons gagné environ 15 d’entre eux ensemble. Ces événements incitent à explorer de nouvelles idées, à créer quelque chose de provocateur. C’est dans cet esprit que DADABOTS a vu le jour en 2012, et nous continuons à pousser les limites à mesure que la technologie progresse.

Pourquoi avez-vous décidé de poursuivre des projets avec DADABOTS plutôt que de rester dans l’univers des hackathons ? D’où vous vient l’idée de vos différents projets ?

CJ : Nous étions tous deux stagiaires au Berklee College of Music dans le domaine de la technologie musicale lorsque cela a commencé. Ma connexion avec Zack a immédiatement semblé naturelle. Zack maîtrisait mieux le traitement des signaux que moi, et moi, j’étais plus à l’aise avec la programmation. Finalement, ça a formé une super équipe.

Quelle est votre approche typique ? Que se passe-t-il en coulisses ?

CJ : SampleRNN est notre principal outil. Il est très rapide pour s’entraîner — en un jour ou deux, nous pouvons le former sur un nouvel artiste. Nous aimons collaborer avec des artistes, quand un artiste nous dit « j’aimerais faire un album avec un bot ». Cependant, récemment, Jukebox a surpassé l’état de l’art en génération musicale. Ils ont fait un excellent travail.

SampleRNN et Jukebox fonctionnent tous deux en tant que générateurs de séquences. Ils analysent des échantillons audio à une fréquence de 44.1k ou 16k et essaient de prédire le prochain échantillon. Ce réseau prend une décision en une fraction de milliseconde pour produire le suivant. C’est ce qui justifie le terme de **synthèse neuronale**. Plutôt que de copier-coller des échantillons audio issus des données d’entraînement, il apprend à synthétiser.

A lire :  Peux-tu deviner lequel de ces modèles est généré par ordinateur ?

La différence réside dans le fait que SampleRNN utilise une architecture « Long Short Term Memory » (LSTM), alors que Jukebox repose sur une architecture de transformer. Cette dernière introduit un concept d’attention, qui est relativement nouveau en apprentissage profond, après les RNN et LSTM. Cette méthode a vu le jour avec des modèles linguistiques tels que GPT-2 et Grover. Nombreux sont les chercheurs en langage qui ont abandonné LSTM. Cependant, personne n’avait encore appliqué cela à l’audio — c’est ce qui représente un véritable progrès pour Jukebox. Ils prennent une architecture linguistique et l’appliquent à la musique.

ils ajoutent également un élément innovant, appelé « Vector-Quantized Variational AutoEncoder » (VQ-VAE). Ils cherchent à transformer le son en langage. Ils ont entraîné un modèle capable de créer un codebook, un peu comme un alphabet. Cet alphabet, qui comprend 2048 symboles uniques, représente chacun un aspect musical, et ils forment leurs modèles de transformateurs à partir de cela.

A quoi ressemble cet alphabet ? Que signifie “un aspect musical” ?

CJ : Ils n’ont pas fait cette analyse. Nous sommes vraiment curieux. Par exemple, pouvons-nous composer avec cela ?

Zack : Nous avons ces 2048 caractères, et nous nous demandons lesquels sont souvent utilisés. Comme dans un alphabet, on n’utilise pas souvent la lettre Z. Mais quelles sont les « voyelles » ? Quels symboles sont fréquents ? Ce serait fascinant d’observer ce qui se passe si on retire certains de ces symboles et qu’on voit ce que le net peut créer avec ce qu’il reste. À l’image du langage de la théorie musicale avec des accords et des échelles, c’est peut-être quelque chose avec lequel nous pourrions composer, au-delà de simplement créer des deepfakes d’un artiste.

Que peut nous apprendre ce langage sur les règles et les composants fondamentaux de la musique ? Et comment pourrions-nous en faire des éléments de base ? Ce sont des concepts beaucoup plus abstraits que les accords — ils pourraient être liés aux genres. Nous ne savons pas encore. Il serait vraiment intéressant d’effectuer cette analyse et de voir ce qu’il se passe en utilisant juste un sous-ensemble du langage.

CJ : Ils ont développé une nouvelle théorie musicale.

Il semblerait que nous avons tous les trois les mêmes interrogations à ce sujet. Avez-vous commencé à jouer avec pour comprendre ce qui se passe ?

CJ : Nous avons fait fonctionner le code. Le premier exemple que nous avons obtenu est ce morceau de Sinatra. Mais au fur et à mesure que nous l’utilisons davantage, les implications philosophiques émergent : en tant que musiciens, nous savons intuitivement que la musique ressemble beaucoup à un langage. Ce n’est pas seulement des ondes et des bruits, comme cela paraît à petite échelle, mais lorsque nous jouons, nous communiquons. La basse et le batteur s’harmonisent, les cordes et les voix peuvent faire des appels et des réponses. OpenAI s’est demandé : « Que se passerait-il si nous traitions la musique comme un langage ? »

Si cet alphabet utilisé par l’algorithme pouvait être considéré comme une nouvelle théorie musicale, pensez-vous qu’il deviendra un outil utile pour vous dans le futur ? Ou s’agit-il plutôt d’une simple curiosité à explorer ?

CJ : Peut-être devrais-je reformuler. Au lieu d’être une théorie musicale, ces modèles pourraient permettre d’entraîner la théorie musicale.

Zack : Nous ne pouvons pas encore expliquer la théorie. Nous ne pouvons pas dire « Cette valeur signifie cela ». Ce n’est pas encore tout à fait interprétable par des humains.

CJ : Le modèle apprend juste des schémas probabilistes, et c’est ce qu’est la théorie musicale. Ces notes ont tendance à s’agencer de certaines manières et évoquent certaines émotions. Et cela a été imaginé par des humains. Que se passerait-il si nous laissions un modèle essayer de découvrir cela par lui-même, et ensuite nous lui demandons de composer ? S’il s’en sort bien, il a probablement assimilé ce qu’on pourrait qualifier de « théorie musicale ».

Zack : Une analogie que nous avons envisagée : à l’époque de Bach et d’autres compositeurs passionnés par le contrepoint — l’idée de plusieurs voix évoluant dans des directions différentes — ils suivaient un ensemble de règles. La première ligne mélodique sur laquelle le compositeur se base est appelée **cantus firmus**. Il y avait un jeu éducatif pour les nouveaux compositeurs : si vous parveniez à suivre les notes du cantus firmus et à deviner les notes d’harmonisation suivantes, vous aviez raison selon la musique du jour.

A lire :  Samsung Investit Massivement dans l'IA : 800 Millions de Dispositifs Alimentés par Gemini d'ici 2026.

Nous pensons que cela ressemble à une version machine de ça, dans un sens. Un outil pouvant être utilisé pour créer de la nouvelle musique dans le style de ce qui a déjà été entendu.

Je sais que c’est encore précoce et que cela reste spéculatif, mais avez-vous des idées sur l’utilisation de Jukebox ? S’agira-t-il surtout de mashups ou pensez-vous que des compositions originales pourraient émerger ?

CJ : D’une part, nous craignons l’art « à pression de bouton ». Beaucoup trouvent cela grotesque, mais je crois que lorsque notre culture atteint ce point — c’est un moment transcendant. Cela signifie que la communication de cette culture a atteint sa pleine capacité. Prenez les générateurs de memes : je peux partager une image de Keanu Reeves, y insérer une blague interne et l’envoyer à mes amis, et ils peuvent comprendre mon message. C’est puissant, même si c’est grotesque.

D’autre part, il y aura des **virtuoses** — ces créateurs qui vont pousser les limites pour réaliser un art qui n’a jamais existé. Ce qui nous intéresse, ce sont ces générateurs fonctionnant 24/7, capables de produire de manière illimitée.

Zack : Je pense que c’est un outil intéressant pour des artistes ayant déjà une discographie. Certains d’entre eux ne réalisent même pas qu’ils peuvent être générés avec Jukebox. Je pense qu’ils seraient curieux de découvrir ce qui pourrait être créé à leur image. Cela peut servir d’outil de variation, recréer leur travail sous un angle qu’ils n’ont même jamais envisagé. Cela peut transformer leur œuvre à travers des artistes similaires ou même très éloignés. C’est un excellent outil de formation pour des artistes.

Vous avez mentionné avoir été approchés par certains artistes pour générer de la musique — pouvez-vous en parler ?

CJ : Lorsque des groupes s’adressent à nous, ils restent généralement dans l’idée de « Prenez juste mes données de formation et voyons ce qui en sort — je suis vraiment intéressé ». Cependant, les fans sur YouTube demandent aussi « Voici ma liste de quatre groupes préférés, veuillez composer quelque chose avec cela ».

Passons à la piste réelle que vous avez produite pour nous. Pour ce morceau, Futurism a suggéré “Toxic” de Britney Spears interprété par Frank Sinatra. La partie technique de cet assemblage était-elle différente de vos travaux habituels ?

CJ : C’était différent. Avec SampleRNN, nous avons l’habitude de le former à partir de zéro sur un seul artiste ou un seul album. C’est vraiment là qu’il excelle — il ne réussit pas à réaliser ces fusions efficacement. OpenAI a réussi à le faire grâce à un **énorme** budget de calcul, entraînant des réseaux neuronaux géants sur plus de 9000 artistes répartis dans 300 genres. Vous avez besoin d’une grande équipe et d’un budget considérable pour créer ce réseau généralisable.

Zack : Il y a deux options. Soit avec des paroles, soit sans. Sans paroles, c’est un peu comme ce que fait SampleRNN. Avec les paroles, il essaie de les mettre en ordre, mais parfois ça boucle ou ça répète. Il essaie d’aller du début à la fin tout en gardant le flow. Si vous avez trop de paroles, il ne comprend pas. Il n’associe pas qu’un refrain répétitif devrait s’accompagner d’une musique répétée également. Ainsi, nous trouvons que ces compositions courtes fonctionnent mieux pour nous.

Mais vous aviez déjà utilisé des paroles dans vos précédents projets basés sur SampleRNN, comme “Human Extinction Party“. Quelle était la différence ?

CJ : C’était plus un effet d’optique.

Zack : C’était un peu illusoire. L’album sur lequel nous avons formé le modèle contenait des voix, donc certaines ont effectivement été intégrées. Nous avions un générateur de texte qui créait des paroles lors de l’interprétation de certains sons.

Dans beaucoup de ces mashups Jukebox, j’ai remarqué que la voix semble un peu **contraite**. Est-ce simplement une question de l’IA forcée à atteindre une certaine note, ou cela relève-t-il des **limitations** de l’algorithme lui-même ?

Zack : Ce que vous suggérez est sans doute exact. Il était probablement peu probable que ces paroles ou ces phonèmes apparaissent de manière à correspondre à la façon dont nous étions en train d’obliger le système à générer ces syllabes. Il a probablement entendu davantage de musique qui ne correspondait pas à Frank Sinatra, ce qui lui permet d’imaginer des choses que Sinatra n’a jamais faites. Mais cela reste différent de ce qui était présent dans les textes originaux de Frank Sinatra.

A lire :  Ukraine Utilise la Reconnaissance Faciale pour Identifier les Soldats Russes Décédés et Informer Leur Famille

Lorsque vous travailliez sur cette version de “Toxic”, avez-vous rencontré des difficultés en cours de route ? Ou cela a-t-il été une question de laisser à l’algorithme le temps de faire son travail ?

CJ : Une partie de la difficulté réside dans le fait que nous avons besoin d’un matériel très coûteux que nous devons louer sur Amazon Cloud, à trois dollars de l’heure. Et cela prend — combien de temps a-t-il fallu pour générer cela, Zack ?

Zack : La version finale a pris environ un jour à générer, mais j’avais déjà essayé de nombreuses fois pendant une semaine. Il y a très peu de contrôle, donc parfois on doit juste repartir d’un autre point. Parfois, le système saisissait quelques phrases, puis perdait le fil des paroles. À d’autres moments, nous obtenions deux lignes, mais pas l’ensemble du refrain d’un coup. Cela dépendait vraiment de la **chance** — attendre que le bon résultat arrive.

Il pouvait aussi répéter une ligne ou basculer dans des chansons apparemment différentes. Il perdait complètement le contexte. Des choses assez étonnantes peuvent se produire. Un jour, en générant du Frank Sinatra, c’était clairement un refrain avec des voix mixtes. Ce n’était pas même le bon timbre. Ça pouvait devenir très étrange.

Avez-vous des réflexions sur les problèmes de **droits d’auteur** liés à ce type de musique ? La capacité de générer de la nouvelle musique à la manière ou à la voix d’un artiste semble être un terrain inexploré. Existe-t-il des problèmes avec les mashups utilisant des paroles existantes ? Sont-ils plus acceptables sous le prétexte du **fair use**, un peu comme les chansons parodiques ?

CJ : Nous ne sommes pas des juristes et nous n’avons pas étudié ces questions de droits d’auteur. L’impression générale est qu’il existe une solide argumentation en faveur du fair use, mais certains artistes pourraient ne pas apprécier ces **deepfakes**.

Zack : Je pense que tout dépend de l’intention, et ce que la loi en décidera, elle statuera en temps voulu. Mais en tant qu’utilisateurs de cet outil, il faut bien sûr respecter une **éthique**. Ne vexez pas les gens. Nous faisons de notre mieux pour créditer ceux qui ont contribué à la technologie, ainsi que ceux sur lesquels elle a été formée. Tout dépend également de la manière dont vous le présentez et du respect que vous témoignez au travail des autres.

Avant de vous laisser, sur quoi travaillez-vous en ce moment ?

CJ : Notre recherche à long terme vise à rendre ces modèles plus rapides et moins coûteux, afin que tout le monde, même un **jeune** de 12 ans, puisse créer de la musique que personne n’a jamais imaginée. Actuellement, cela demande beaucoup d’argent et plusieurs jours. Nous avons la chance de pouvoir le faire avec le matériel loué.

Précisément, nous travaillons sur une liste de plus de 9 000 groupes que le modèle prend en charge. Mais ce qui est intéressant, c’est que ces groupes n’ont pas été consultés pour faire partie de ce jeu de données. Sur Twitter, certains chercheurs en machine learning débattent de cette question éthique. Il y a deux points de vue, évidemment, mais nous voulons réellement entrer en contact avec ces groupes. Si quelqu’un connaît ces artistes, ou s’ils nous lisent, nous serons ravis de créer de la musique pour eux. Nous souhaitons ramener cette technologie, capable de générer de nouvelles formes de créativité, aux artistes eux-mêmes.

Plus sur DADABOTS : Des chercheurs ont formé un **réseau neuronal** en utilisant un album de Cannibal Corpse

FAQ

Qu’est-ce que Jukebox d’OpenAI ?

Jukebox est un modèle d’intelligence artificielle capable de générer de la musique originale et des mashups dans le style de milliers d’artistes.

Comment DADABOTS utilise-t-il la technologie musicale ?

DADABOTS combine musique et intelligence artificielle pour créer des compositions uniques en utilisant des algorithmes.

Quels impacts éthiques la musique générée par IA pourrait-elle avoir ?

Les créations musicales par IA soulèvent des questions concernant les droits d’auteur et le respect des artistes originaux.

Les artistes peuvent-ils être rémunérés pour leur musique générée par IA ?

Actuellement, il existe de nombreuses incertitudes juridiques quant à la rémunération des artistes pour des œuvres générées par IA basée sur leur style.

Future des créations musicales avec IA ?

L’avenir de la musique générée par IA pourrait se diriger vers des collaborations créatives tout en posant des questions éthiques sur l’originalité et la propriété intellectuelle.