Intelligence Artificielle

« Incompréhension sur les Sources de Données de Sora : La CTO d’OpenAI S’interroge »

« Incompréhension sur les Sources de Données de Sora : La CTO d'OpenAI S'interroge »

OpenAI et la transparence sur les données d’entraînement

Un questionnement sur les sources de données

Récemment, Mira Murati, la directrice technique d’OpenAI, a été interrogée lors d’une interview par Joanna Stern du Wall Street Journal concernant les données utilisées pour entraîner Sora, leur nouvelle intelligence artificielle capable de générer des vidéos. Au cours de cette conversation de dix minutes, Stern a posé une question simple et directe : quelles étaient les sources de données utilisées pour le modèle ? Murati a admis qu’elle n’avait pas de réponse précise, se contentant de rappeler que les données provenaient de sources publiques et de données sous licence.

Un flou qui questionne

Lorsque Stern a insisté en demandant spécifiquement si des vidéos de YouTube faisaient partie de l’entraînement, Murati a avoué qu’elle n’en était pas certaine. Cela a introduit un certain malaise, surtout lorsqu’elle a été interrogée sur l’utilisation de contenus provenant d’Instagram ou Facebook. Sa réponse, tout en gardant un ton distant, a révélé un manque de clarté sur les sources spécifiques de ces données.

La réponse s’est limitée à un vague : « C’était des données disponibles publiquement ou sous licence », sans plus de précisions. Ce flou laisse planer des doutes, surtout pour une entreprise qui fait face à des critiques croissantes et à des poursuites judiciaires pour la manière dont elle gère ses pratiques de collecte de données.

Un problème d’image pour OpenAI

La situation soulève des préoccupations notables concernant la transparence d’OpenAI dans ses pratiques. Si même la CTO ne peut pas fournir d’informations claires sur les sources de données d’un modèle aussi en avant comme Sora, cela pourrait indiquer un manque de considération pour la question de la propriété intellectuelle. Cette manière d’aborder la problématique peut être mal perçue, surtout à une époque où les préoccupations liées aux droits d’auteur sont de plus en plus pressantes.

Plus tard, Murati a confirmé que les vidéos de la plateforme Shutterstock faisaient effectivement partie de l’entraînement de Sora, mais cela n’enlève rien à la question de la quantité de contenu utilisée et à la manière dont il a été acquis. En effet, les clips disponibles via Shutterstock ne représentent qu’une petite fraction des données que Sora pourrait utiliser.

Réactions mitigées

Les réactions sur les réseaux sociaux ont été variées, certains prenant Murati à partie en soulignant son ignorance apparente concernant son propre produit, tandis que d’autres défendaient son droit à ne pas divulguer plus d’informations. Cela souligne une tension croissante entre ceux qui publient en ligne et ceux qui développent des technologies d’IA.

Une réalité complexe

La discussion autour de l’utilisation des données d’IA met en lumière une nouvelle réalité sur Internet. Les utilisateurs mettent fréquemment leur contenu en ligne, puis s’offusquent lorsque ce contenu est exploité à des fins commerciales par des entreprises d’IA. Ce dilemme soulève la question de la responsabilité des utilisateurs en matière de protection de leur contenu, tout en identifiant les pratiques des entreprises envers cette collecte massive.

La nécessité d’une meilleure transparence devrait être une priorité pour OpenAI et d’autres entreprises d’IA, car continuer à naviguer dans le flou ne fera qu’accentuer le scepticisme du public.

FAQ

H4 : Quelles sont les implications de l’utilisation de contenu public par OpenAI ?

L’utilisation de contenu public soulève des questions sur le respect des droits d’auteur et la rémunération des créateurs de contenu.

H4 : Pourquoi la transparence est-elle essentielle dans la collecte de données ?

La transparence aide à bâtir la confiance entre les utilisateurs et les entreprises, et atténue les inquiétudes concernant l’exploitation des données.

H4 : Quelles réglementations existent sur l’utilisation des données pour l’IA ?

De nombreuses juridictions mettent en place des lois sur la protection des données, mais celles-ci varient considérablement d’un pays à l’autre, ce qui complique la situation.

H4 : Comment les utilisateurs peuvent-ils protéger leur contenu en ligne ?

Les utilisateurs peuvent opter pour des paramètres de confidentialité stricte, et être conscients des politiques de chaque plateforme concernant le contenu partagé.

H4 : Y a-t-il des alternatives à la collecte de données par des entreprises comme OpenAI ?

Des modèles d’IA basés sur des données de source ouverte ou qui rémunèrent les créateurs sont en développement pour encourager une utilisation plus éthique des données.

Quitter la version mobile