Intelligence Artificielle

OpenAI A Discrètement Entraîné GPT-4 Avec Plus d’Un Million d’Heures de Vidéos YouTube Transcrites.

OpenAI A Discrètement Entraîné GPT-4 Avec Plus d'Un Million d'Heures de Vidéos YouTube Transcrites.

Un entretien révélateur autour de Sora

Le mois dernier, Joanna Stern du Wall Street Journal a eu un échange intéressé avec Mira Murati, la directrice technique d’OpenAI, sur leur nouveau générateur de vidéos à partir de texte, baptisé Sora. Cette discussion, bien qu’informelle, a mis en lumière des questions cruciales liées aux sources de données utilisées par OpenAI.

Une question délicate sur les sources

Lors de cette rencontre, Stern a interrogé Murati sur les éventuels entraînements de Sora à partir de vidéos provenant de YouTube, Instagram et Facebook. À cette question, Murati a marqué un temps d’arrêt significatif, visiblement mal à l’aise. Elle a répondu en indiquant que seules des données publiques et sous licence avaient été utilisées. Lorsque Stern a insisté sur YouTube, Murati a exprimé son incertitude, suivie d’une expression faciale troublée qui a révélé l’embarras de la situation.

Des révélations alarmantes

Il s’avère que la raison pour laquelle Murati était si réticente à répondre n’est pas anodine. Selon les informations rapportées par le New York Times, OpenAI aurait réalisé l’entraînement de son modèle linguistique GPT-4 en utilisant plus d’un million d’heures de vidéos transcrites provenant de YouTube. Des sources ayant connaissance de la situation ont évoqué que ces transcriptions avaient effectivement été intégrées dans le modèle.

A lire :  Un Homme Écrit 97 Livres Médiocres avec l'IA et Génère 2 000 $ de Ventes

Des pratiques controversées au sein de l’industrie

D’autres entreprises, comme Google, qui possède YouTube, ont aussi donné un aperçu de ces pratiques. Il semble que le géant technologique ait également recueilli des transcriptions pour alimenter ses propres modèles d’intelligence artificielle. Cela soulève des questions inquiétantes sur la manière dont les entreprises d’IA exploitent des données massives, souvent non autorisées et en violation potentielle des droits d’auteur, sans jamais indemniser équitablement les titulaires de droits.

Une situation juridique complexe

Ces pratiques ont conduit à une série de poursuites judiciaires où les détenteurs de droits accusent des entreprises telles qu’OpenAI et Microsoft de justifier leurs actes sous la doctrine du “fair use”, un concept du droit d’auteur américain permettant un usage limité de contenu protégé sans autorisation. Le NYT lui-même a intenté un procès contre OpenAI et Microsoft pour violation des droits d’auteur, ce qui démontre un climat de tension croissante dans cette industrie.

La réaction de YouTube

Dernièrement, juste avant la publication de l’article du New York Times, Neal Mohan, le PDG de YouTube, a clairement signalé que si Sora avait bien été entraîné avec des vidéos de sa plateforme, cela constituerait une violation évidente des conditions d’utilisation de YouTube. En réponse, un porte-parole de Google a souligné que toute collecte non autorisée de contenu de YouTube était strictement interdite.

Une perspective inquiétante

Nous manquons encore de clarté sur les connexions exactes entre Sora et GPT-4. Il est évident qu’OpenAI s’appuie sur une couche de traduction alimentée par son modèle linguistique pour interpréter les instructions textuelles. Cependant, une préoccupation plus large se pose : le fait de retirer un million d’heures de vidéos sans consentement constitue-t-il du vol ? Le droit d’auteur aux États-Unis demeure un domaine flou, notamment en ce qui concerne le fair use.

A lire :  Un Analyste Met en Garde Contre l'Usage de l'IA Copilot de Microsoft le Vendredi Après-Midi

Des experts soulignent que les entreprises d’IA, qui exploitent l’intégralité du contenu disponible sur Internet, se heurtent à la complexité de la licence. Selon un avocat, il serait pratiquement impossible d’acquérir toutes les autorisations nécessaires pour les données utilisées.

Un avenir incertain pour les données d’entraînement

Il est également prévu que les entreprises d’IA pourraient faire face à un défi inattendu : l’épuisement des données d’entraînement. Des recherches révèlent qu’en 2026, il y a 90% de chances que ces entreprises manquent de données de haute qualité pour nourrir leurs modèles. En conséquence, des entreprises comme OpenAI pourraient être contraintes d’utiliser des données d’apprentissage synthétiques, générées par l’IA elle-même, un développement qui pourrait aggraver la situation tout en soulevant de nouvelles inquiétudes.

FAQ

Q1: Quelles sont les conséquences des pratiques d’OpenAI et d’autres entreprises sur les créateurs de contenu ?

Les créateurs de contenu risquent de perdre des revenus et de voir leurs droits d’auteur bafoués, car les données de leur travail peuvent être utilisées sans compensation.

Q2: Existe-t-il des lois en France concernant l’utilisation de données protégées par des droits d’auteur ?

Oui, la France a des lois strictes sur le respect des droits d’auteur, et des recours légaux peuvent être entrepris par les titulaires de droits en cas d’utilisation non autorisée.

Q3: Quels types de contenus sont souvent utilisés pour entraîner les modèles d’IA ?

Souvent, les modèles sont formés à partir de contenus variés, incluant des textes, des images et des vidéos provenant de nombreuses plateformes en ligne, qui peuvent parfois être sources de litiges.

A lire :  IA Innovante : Des Jeux Vidéo Psychédéliques Inspirés de la Réalité

Q4: Comment les entreprises peuvent-elles s’assurer qu’elles respectent les droits d’auteur ?

Les entreprises doivent obtenir les licences appropriées pour les contenus ou utiliser uniquement des données qui sont explicitement en accès libre pour éviter des conflits juridiques.

Q5: Quel rôle joue le public dans le débat sur l’utilisation des données pour l’IA ?

Le public est de plus en plus conscient des enjeux éthiques et juridiques entourant l’utilisation des données, ce qui pousse à des discussions sur un usage plus responsable et respectueux des droits d’auteur dans le développement de l’IA.