Intelligence Artificielle

Des Scientifiques Honorent l’Éthique : La Révolution IA Basée sur des Données Responsable

Des Scientifiques Honorent l'Éthique : La Révolution IA Basée sur des Données Responsable

Une Équipe de Chercheurs Innovants

Un groupe de chercheurs spécialisés en intelligence artificielle, constitué de plus de deux douzaines de membres issus du MIT, de l’Université Cornell, de l’Université de Toronto et d’autres institutions, a réalisé une avancée notable. Ils ont développé un grand modèle de langage en se basant uniquement sur des données disponibles sous licences ouvertes ou dans le domaine public. Cette initiative, comme le souligne le Washington Post, constitue un véritable modèle pour une approche éthique dans le développement de cette technologie.

Un Défi de Taille

Cependant, les concepteurs sont bien conscients que ce projet n’a pas été un long fleuve tranquille. Dans un document récemment publié, encore en attente de validation par les pairs, ils mentionnent une découverte frappante : ce n’est pas la puissance de calcul qui les a limités, mais le besoin de main-d’œuvre physique pour manipuler les données.

Les Démarches Chronophages

La tâche était immense : le jeu de données qu’ils ont constitué, nommé Common Pile v0.1, pesait plus de huit téraoctets. Chaque échantillon devait être soigneusement nettoyé et retravaillé pour répondre aux exigences de l’entraînement de l’intelligence artificielle. Comme l’explique le Washington Post, ce processus a nécessité un travail colossal de vérification des droits d’auteur pour chaque donnée, puisque de nombreuses œuvres en ligne sont souvent mal licenciées.

A lire :  Nouvelle Startup : Analyser les Résultats de l'IA pour Identifier les Sources de Plagiat

Stella Biderman, coautrice de l’étude et directrice exécutive de l’organisation à but non lucratif Eleuther AI, a déclaré que l’augmentation des ressources disponibles, comme des puces informatiques additionnelles ou des outils d’extraction web sophistiqués, ne suffisait pas. Bien qu’ils aient utilisé des outils automatisés, le travail final a nécessité une annotation manuelle et des vérifications par des humains, ce qui reste un défi de taille.

Les Résultats de l’Endeavor

Malgré ces obstacles, Biderman et son équipe ont réussi à mener leur projet à terme. Leur jeu de données, exempt de préoccupations éthiques, a été utilisé pour entraîner un modèle de langage comportant sept milliards de paramètres. Le résultat se mesure face à des références du secteur, telles que Llama 1 et Llama 2 de Meta, qui, bien que performantes, sont considérées comme anciennes comparées aux évolutions récentes du domaine.

L’Importance de l’Éthique

Un aspect particulièrement intéressant de cette initiative réside dans le fait qu’elle a été réalisée par une équipe informelle plutôt que par une grande entreprise possédant des ressources financières colossales. Parmi leurs découvertes, ils ont déniché plus de 130 000 livres en anglais à la Bibliothèque du Congrès, qui avaient été négligés jusqu’alors.

La question du droit d’auteur demeure l’une des préoccupations éthiques et juridiques majeures qui accompagnent le développement de l’IA. Des multinationales comme OpenAI et Google ont puisé dans d’énormes quantités de données issues du web pour parvenir à leurs fins, engendrant des controverses, notamment avec des plaintes d’auteurs qui accusent ces entreprises d’avoir utilisé illégalement des millions de livres protégés pour former leurs intelligences artificielles.

A lire :  Sam Altman, assigné en justice en direct sur scène

Une Réponse à la Controverse

Ce dernier projet constitue une réponse à la narrative selon laquelle l’industrie technologique devrait avoir libre accès à toutes les données, même sans autorisation. Bien que cela ne règle pas toutes les questions éthiques, il démontre que l’on peut développer des technologies d’IA en respectant les droits d’auteur. Dans cette démarche, il est essentiel de rester sensibles aux préoccupations des artistes dont les œuvres sont intégrées dans les jeux de données destinés à l’IA.

Vers l’Avenir

Bien qu’il soit souhaitable que les entreprises d’IA comme OpenAI adoptent des pratiques plus éthiques, Biderman doute qu’elles changent radicalement. Son espoir est que son travail incite plus de transparence dans le sourcing des données utilisées pour former ces modèles d’IA. Selon elle, un minimum de transparence peut apporter une grande valeur sociale et scientifique.

FAQ

Qu’est-ce qu’un modèle de langage ?

Un modèle de langage est un type d’intelligence artificielle conçu pour comprendre et générer du texte basé sur les données sur lesquelles il a été entraîné.

Comment fonctionne l’entraînement d’un modèle d’IA ?

L’entraînement d’un modèle d’IA implique de fournir une vaste quantité de données textuelles pour que le système apprenne à prédire des mots et à comprendre des contextes.

Pourquoi le respect des droits d’auteur est-il crucial dans l’IA ?

Le respect des droits d’auteur est essentiel pour protéger la propriété intellectuelle des créateurs et éviter des pratiques potentiellement illégales de prélèvement de contenu en ligne.

Y a-t-il des alternatives éthiques pour l’entraînement des modèles d’IA ?

Oui, des initiatives comme l’utilisation de données sous licence libre ou dans le domaine public, ainsi que le respect des droits d’auteur, offrent des alternatives éthiques pour développer des modèles d’IA.

A lire :  Toys "R" Us : La technologie de surveillance néglige les enfants

Quelle est l’importance de la transparence dans le sourcing des données ?

La transparence aide à bâtir la confiance entre les développeurs d’IA et le public, en assurant que les données utilisées sont légales et éthiques.