Intelligence Artificielle

Site Révèle Précisément Quels Livres les Collaborateurs de Zuckerberg Ont Téléchargés Illégalement pour Entraîner l’IA de Meta

Site Révèle Précisément Quels Livres les Collaborateurs de Zuckerberg Ont Téléchargés Illégalement pour Entraîner l'IA de Meta
<p>
    <figcaption class="article-featured-image-caption">
        <em>Image : Drew Angerer via Getty / Futurism</em>
    </figcaption>
</p>

Les exigences accrues de l’intelligence artificielle

L’intelligence artificielle (IA) est souvent présentée comme une technologie révolutionnaire, mais son développement entraîne des coûts importants. D’une part, cette technologie nécessite une énorme quantité d’énergie pour alimenter les centres de données qui hébergent ses applications. La production d’électricité suffisante demande d’énormes ressources, sans compter les investissements nécessaires en matériel et en infrastructures de refroidissement. Tout cela engendre des dépenses considérables, faisant de l’IA un véritable gouffre financier. Ce phénomène a des répercussions sur notre économie, car même une simple rumeur entourant l’IA peut provoquer de grands bouleversements sur Wall Street et ailleurs.

Une soif insatiable de données

Au-delà de ses besoins énergétiques, l’IA est également avide de données. Les grands modèles de langue, tels que ChatGPT d’OpenAI, exigent d’importants ensembles de données textuelles pour peaufiner leurs algorithmes et s’adapter aux règles linguistiques. Leur demande en données brutes est si forte qu’il devient de plus en plus difficile de trouver des contenus originaux à leur fournir.

A lire :  Le premier ministre IA au monde serait « enceinte » de 83 descendants, selon le gouvernement

Stuart Russell, un expert en informatique, a déclaré en 2023 que nous étions en train de « manquer de textes dans l’univers pour former ces systèmes ». En 2025, cette réalité semble encore plus pressante.

Les révélations de Meta sur l’acquisition de données

Meta, la société mère de Facebook et Instagram, a accidentellement levé le voile sur les pratiques qui entourent l’utilisation de ces données. En janvier, la société a perdu un procès contre un groupe d’auteurs qui l’accusaient d’avoir utilisé leurs livres pour entraîner ses algorithmes d’IA. L’affaire a mis en lumière que Meta avait illégalement téléchargé de vastes bibliothèques piratées, telles que LibGen, afin d’accéder à des millions de textes légalement protégés. Ces livres ont ensuite été incorporés dans le modèle de langage de Meta, connu sous le nom de Llama, avec l’approbation de Mark Zuckerberg lui-même. En résumé, l’une des plus grandes entreprises mondiales n’a pas jugé utile de rémunérer les auteurs des ouvrages qu’elle a utilisés.

L’impact du procès et les implications des résultats

Cette semaine, The Atlantic a dévoilé un outil de recherche capable d’explorer les fichiers de LibGen afin d’identifier précisément quels ouvrages Meta a utilisés. L’ampleur de cette opération de collecte de données s’étend sur plus de 7,5 millions de livres et environ 81 millions de papiers académiques, sans oublier les travaux publiés par des musées, des architectes et des artistes.

Le procès a été mené par des auteurs comme Ta-Nehisi Coates et Sarah Silverman, qui avaient déjà une idée de la piraterie de données de Meta grâce à un précédent procès en 2023. Désormais, grâce à ce nouvel outil, écrivains et chercheurs peuvent voir plus clairement quel travail a été piraté pour alimenter le modèle de langage à but lucratif de Meta. Cela suscite de nombreux débats autour des lois sur le droit d’auteur, de l’éthique de l’IA et de la piraterie médiatique.

A lire :  De 20 000 $ à 1,8 milliard : Un homme transforme des outils d'IA en entreprise de télé-santé révolutionnaire.

Justin Ling, un écrivain de Wired, a exprimé son avis sur la question : « Mon livre est ici — et c’est bien ! LibGen rend les textes accessibles à ceux qui n’y auraient pas accès autrement. Le véritable problème, selon moi, n’est pas que LibGen offre du contenu gratuitement, mais que Meta vole ce matériel pour en tirer profit. »

Quelles seront les conséquences pour Meta ?

Il reste à voir si Meta compensera les écrivains lésés par cette situation, une décision étant attendue pour l’été. Quoi qu’il en soit, le mal est fait. Le modèle Llama est maintenant largement accessible à travers des plateformes telles que Facebook, Instagram et WhatsApp, ce qui représente un tournant significatif pour l’avenir du données personnelles dans un monde dominé par les grandes entreprises technologiques.

FAQ

Qu’est-ce qu’un modèle de langue et comment fonctionne-t-il ?

Les modèles de langue utilisent des algorithmes avancés pour analyser et générer du texte basé sur d’énormes ensembles de données. Ils apprennent les structures linguistiques en ingérant des millions d’exemples écrits.

Pourquoi la majorité des auteurs s’opposent-ils à l’utilisation de leurs œuvres par des entreprises comme Meta ?

Les auteurs craignent que l’utilisation non autorisée de leurs livres par ces entreprises ne porte atteinte à leurs droits d’auteur, ne nuise à leur revenus et à leur reconnaissance.

Quelles sont les répercussions juridiques potentielles de ce procès sur l’industrie de l’IA ?

La décision du tribunal pourrait établir des précédents légaux concernant les droits d’auteur dans le contexte de l’IA, influençant ainsi les futures pratiques d’acquisition de données.

A lire :  OpenAI lance ChatGPT pour les enseignants, avec accès gratuit jusqu’en 2027

Existe-t-il des alternatives éthiques à LibGen ?

Certaines plateformes légales permettent de partager des œuvres tout en respectant les droits d’auteur. Des initiatives et des licences comme Creative Commons encouragent l’accès gratuit tout en protégeant les droits des créateurs.

Comment les utilisateurs peuvent-ils se protéger contre la collecte abusive de données par des entreprises ?

Les utilisateurs sont encouragés à utiliser des outils de protection de la vie privée, à lire attentivement les conditions d’utilisation des services en ligne et à être conscients des informations qu’ils partagent.