Intelligence Artificielle

Menace Imminente : Les Entreprises d’IA en Panne de Données d’Entraînement

Menace Imminente : Les Entreprises d'IA en Panne de Données d'Entraînement

Crash des données

Les entreprises spécialisées en intelligence artificielle (IA) s’appuient généralement sur une grande quantité de contenus accessibles au public pour concevoir leurs modèles, englobant tout, des vidéos YouTube aux articles de journaux. Cependant, de plus en plus de plateformes limitent l’accès à leurs contenus, ce qui pose un réel problème.

Des restrictions préoccupantes

Ces nouvelles limitations pourraient engendrer une véritable “crise”, réduisant l’efficacité des modèles d’IA. C’est ce qu’a révélé une récente étude menée par l’Initiative sur la provenance des données au Massachusetts Institute of Technology (MIT). Les chercheurs ont analysé 14 000 sites web utilisés dans les ensembles de données pour l’entraînement aux IA. Résultat intriguant : environ 28 % des sources les plus importantes sur le web sont désormais complètement inaccessibles.

Les administrateurs de ces sites ont instauré des restrictions en rendant plus strictes les règles concernant les robots d’exploration. Ces modifications compliquent sérieusement le processus pour collecter des données, ce qui pourrait déséquilibrer la diversité et la fraîcheur des systèmes d’IA.

La perte d’accès à l’information

Il est naturel que les plateformes veuillent protéger leurs données, devenues précieuses. Les entreprises d’IA utilisent souvent ce matériel, souvent protégé par des droits d’auteur, sans autorisation, ce qui provoque des mécontentements, allant de The New York Times à des célébrités comme Sarah Silverman.

A lire :  Un enregistrement audio prétendument issu d’un séminaire privé de Peter Thiel sur « l’Antéchrist » aurait fuité

Une critique particulièrement virulente provient de la directrice technique d’OpenAI, Mira Murati, qui estime que certaines professions créatives pourraient disparaître. Cela est paradoxal, car les créations de ces artistes sont à la base des modèles IA comme ChatGPT d’OpenAI.

Une crise du consentement

Cette situation illustre un manque de respect et a entraîné une réaction négative, marquant une “crise du consentement” comme l’appelle l’étude. L’internet, autrefois libre et ouvert, se transforme en un espace de plus en plus fermé. En conséquence, les modèles d’IA risquent de devenir moins variés, moins récents et plus biaisés.

Pour contourner ces restrictions, certaines entreprises envisagent d’utiliser des données synthétiques, produites par des algorithmes d’IA. Cependant, cette méthode n’a pas encore prouvé son efficacité comme alternative aux contenus créés par des humains. D’autres, comme OpenAI, ont conclu des contrats avec des entreprises médiatiques, mais ces accords suscitent des inquiétudes, car les objectifs des entreprises technologiques ne correspondent pas toujours à ceux des médias.

Vers un avenir incertain

L’avenir de ce défi reste à voir, mais il est évident que l’accès aux données d’entraînement devient de plus en plus précieux et rare.


FAQ

Qu’est-ce que la provenance des données ?

La provenance des données fait référence à l’origine des données et à leur parcours depuis leur création jusqu’à leur utilisation actuelle. Elle est essentielle pour garantir la transparence et la traçabilité dans l’utilisation de ces données.

Pourquoi les entreprises d’IA utilisent-elles des contenus protégés ?

Les entreprises d’IA utilisent des contenus protégés, car cela leur permet de former leurs modèles avec des informations variées et pertinentes. Cependant, cela pose des problèmes de droits d’auteur et d’usage éthique, entraînant de nombreux conflits.

A lire :  Des Entreprises en Désespoir Recrutent des Humains pour Corriger les Erreurs de l'IA

Comment les mesures de restriction affectent-elles l’IA ?

Les mesures de restriction limitent l’accès aux sources d’information, ce qui peut réduire la qualité et l’efficacité des modèles d’IA. Moins de diversité et d’actualisation dans les données peuvent mener à des résultats biaisés ou obsolètes.

Quelles alternatives existent aux données humaines ?

Les alternatives incluent l’utilisation de données synthétiques et générées par des algorithmes. Cependant, ces options sont encore considérées comme de faibles substituts comparés à la richesse des contenus créés par des humains.

Quel est l’impact des restrictions pour les créateurs de contenu ?

Les restrictions peuvent protéger les droits des créateurs tout en leur permettant de monétiser leurs œuvres. Cependant, elles compliquent aussi l’accès à l’information et peuvent limiter la visibilité de leurs créations sur des plateformes d’IA.