Intelligence Artificielle

Un Responsable d’OpenAI Éprouve des Difficultés à Répondre sur l’Entraînement de Sora avec des Données YouTube.

Un Responsable d'OpenAI Éprouve des Difficultés à Répondre sur l'Entraînement de Sora avec des Données YouTube.

Image : Costfoto / NurPhoto via Getty / Futurism

Étonnement sur Sora

Lors d’une récente intervention au Tech Summit de Bloomberg à San Francisco, l’opérateur de OpenAI, Brad Lightcap, a été mis sur la sellette. On lui a posé une question cruciale : Est-ce que le générateur vidéo Sora a été entraîné avec des vidéos de YouTube ? Sa réponse a suscité de nombreuses interrogations.

Un discours déroutant

Face à la question directe de Shirin Ghaffary de Bloomberg, Lightcap a engagé un monologue qui a rapidement pris un tournant flou. Au lieu de répondre simplement, il a parlé de l’importance de savoir d’où proviennent les données : “La conversation autour des données est essentielle. Nous devons effectivement savoir d’où elles viennent.”

Des indices imprécis

Après avoir esquissé un futur système d’identification de contenu pour l’IA permettant aux créateurs de choisir l’utilisation de leur contenu pour l’entraînement, Lightcap a frisé l’admission que Sora avait effectivement utilisé des données de YouTube. “Nous examinons cette problématique”, a-t-il ajouté, notant à quel point il était difficile de naviguer dans ces eaux troubles. Tout en admettant que OpenAI n’avait pas encore toutes les réponses, il a laissé entendre qu’une clarté pourrait venir d’ici à 2026.

A lire :  Intel s’envole de 10 % sur l’anticipation d’un accord de puces avec Apple d’ici 2027

Une réponse évasive

La réponse de Lightcap a été accueillie avec scepticisme. Ghaffary a répliqué : “Pas de réponse sur YouTube pour l’instant”, soulignant l’ambiguïté persistante.

Biais de confirmation

Cette gaffe de Lightcap rappelle une situation similaire survenue en mars, lorsque Mira Murati, la CTO d’OpenAI, avait également embarrassé l’entreprise en ne pouvant pas confirmer si Sora avait été formé avec des données de YouTube lors d’une interview avec le Wall Street Journal.

Une réponse floue de Murati

Lors de cette interview, Murati avait déclaré que OpenAI avait utilisé des données disponibles publiquement et des données sous licence. Quand on l’a interrogée spécifiquement sur YouTube, elle a reconnu ne pas en être certaine, ce qui a jeté le doute.

Une confirmation incertaine

Suite à cet échange délicat, elle a pourtant confirmé que des vidéos de Shutterstock avaient été employées pour l’entraînement, laissant le mystère entier autour de l’utilisation potentielle de vidéos provenant de YouTube. Comme l’a fait remarquer un journaliste, la réaction de Lightcap semble confirmer que ces vidéos ont bien été intégrées dans le processus de formation de Sora.

En résumé

Cet enchevêtrement de déclarations autour de Sora souligne l’épineux sujet du droit d’utilisation des données dans le développement de l’intelligence artificielle. Entre la volonté de transparence et la nécessité de protéger leur modèle économique, les choses semblent encore brouillées.

FAQ

Qu’est-ce que Sora ?

Sora est un générateur vidéo développé par OpenAI, utilisant des techniques avancées d’intelligence artificielle pour créer du contenu vidéo à partir de données d’entrée.

Pourquoi la provenance des données est-elle importante ?

La provenance des données est cruciale pour des raisons éthiques, légales et de qualité. S’assurer que les données utilisées respectent les droits d’auteur et les réglementations en matière de propriété intellectuelle est essentiel pour les entreprises de technologie.

A lire :  Arrestation d'un Innocent sur Conseils d'une IA : Un Malentendu Étrange

Quelles alternatives OpenAI envisage-t-il pour entraîner ses modèles ?

OpenAI explore plusieurs méthodes de collecte de données, y compris les partenariats avec d’autres créateurs de contenu et la mise en place de systèmes d’opt-in pour les utilisateurs.

Quand peut-on s’attendre à plus de clarté sur les données utilisées par Sora ?

Bien que Lightcap ait mentionné qu’OpenAI pourrait avoir des réponses d’ici 2026, il reste à voir comment les citoyens et les créateurs de contenu seront informés de l’utilisation de leurs données.

Quelles implications ces discours ont-ils pour l’avenir de l’intelligence artificielle ?

Ces réponses ambiguës soulèvent des questions sur la transparence, la responsabilité et l’éthique dans l’utilisation des données, des enjeux cruciaux pour l’avenir de l’IA.