Intelligence Artificielle

Anthropic Déchire des Millions de Livres Physiques pour Entraîner son IA

Anthropic Déchire des Millions de Livres Physiques pour Entraîner son IA

La destruction des livres pour l’entraînement de l’IA

Une pratique controversée d’Anthropic

Récemment, des révélations ont mis en lumière des méthodes peu éthiques utilisées par Anthropic, une startup soutenue par Google, pour constituer sa base de données afin de former son modèle Claude. Plutôt que de simplement utiliser des extraits de livres protégés par le droit d’auteur, la société a pris une approche bien plus radicale. Elle a découpé des milliers de pages de livres, les a numérisées pour créer des fichiers numériques, puis a simplement jeté ces pages. Cela a conduit à une analogie frappante : l’intelligence artificielle a littéralement « dévoré » ces ouvrages.

Une victoire judiciaire pour l’industrie technologique

Cette méthode de récupération de données a été récemment confirmée par un arrêt sur le droit d’auteur qui a été jugé en faveur d’Anthropic. Le juge William Alsup a statué que même sans le consentement explicite des auteurs, la startup pouvait entraîner son modèle sur des livres acquis légalement. Ce jugement a été perçu comme une victoire pour l’ensemble de l’industrie technologique avide de données.

Le contournement légal et ses implications

La décision repose en partie sur un principe juridique appelé la doctrine de première vente, qui autorise un acheteur à agir librement avec un produit acheté sans nécessité d’autorisation du titulaire des droits d’auteur. Bien que cette doctrine soit essentielle pour le marché de l’occasion, son application par Anthropic risque de poser des questions éthiques. En engageant un ancien responsable de projet de numérisation de Google, Tom Turvey, en février 2024, la société a trouvé un moyen d’acheter physiquement des livres, évitant ainsi les complications légales. En retirant les pages, elle a pu numériser de manière plus efficace, tout en emmagasinant les livres de manière “transformationnelle”, concluant ainsi que son approche était légale.

Démarche peu scrupuleuse et hypocrite

Il est crucial de souligner l’hypocrisie manifeste de cette pratique. Avant de mettre en place cette méthode, Anthropic avait initialement opté pour une approche encore moins éthique en téléchargeant des millions de livres piratés pour alimenter ses systèmes d’IA. Ce comportement a également conduit Meta à faire face à des poursuites de la part d’un groupe d’auteurs pour des violations similaires.

Solutions alternatives ignorées

Cette méthode de numérisation destructrice est non seulement discutables sur le plan moral, mais elles révèlent aussi un manque d’innovation. De nombreux archivistes ont développé des techniques permettant de numériser des ouvrages sans altérer les originaux, comme les initiatives de l’Internet Archive et de Google Books, qui ont également attiré les foudres de la loi par le passé.

Les conséquences pour un secteur en quête d’informations

L’industrie de l’IA finit par se retrouver à court de sources de qualité pour alimenter ses programmes. Dans une recherche désespérée de données, sacrifier des livres et des auteurs devient un coût faible pour les grandes entreprises technologiques, témoignant de leur vision à court terme.

FAQ

H4: Qu’est-ce que la doctrine de première vente ?

La doctrine de première vente est un principe légal permettant à un acheteur d’utiliser un produit acheté à sa guise, sans avoir besoin de l’accord du détenteur des droits d’auteur.

H4: Quelle est l’importance de la numérisation des livres ?

La numérisation des livres permet de rendre des contenus accessibles à un plus large public, mais soulève des questions sur les droits d’auteur et la préservation des œuvres.

H4: Quels sont les risques associés à l’utilisation d’œuvres protégées par le droit d’auteur ?

Utiliser des œuvres sans autorisation peut entraîner des poursuites judiciaires pour violation des droits d’auteur, ce qui expose les entreprises à des sanctions financières.

H4: Comment d’autres entreprises gèrent-elles la numérisation des livres ?

Des entreprises comme Google ont développé des méthodes de numérisation qui respectent le droit d’auteur tout en permettant d’indexer le contenu, évitant ainsi la destruction des originaux.

H4: Quelles sont les alternatives à la numérisation destructrice ?

Les alternatives incluent des systèmes de numérisation sans contact et l’utilisation de technologies qui préservent les livres dans leur intégrité tout en permettant une large diffusion d’information.

Quitter la version mobile