Base de données d'images alimentant l'IA de Google : Contient des images explicites d'enfants.

Sommaire

Une Découverte Alarmante au Sujet de l’IA de Google

Des recherches récentes ont révélé que Google a entraîné son générateur d’images par intelligence artificielle (IA) en utilisant des contenus relatifs aux abus sexuels sur des enfants. Cela soulève de graves préoccupations quant à la sécurité et à l’éthique des pratiques en matière d’intelligence artificielle.

Retrait du Dataset par LAION

Selon un rapport de 404 Media, l’organisation à but non lucratif LAION a décidé de retirer son vaste dataset de 5 milliards d’images, utilisé par de nombreuses entreprises pour former leurs modèles d’IA, notamment Google. Cette décision a été prise « par excès de précaution » après qu’une étude de l’Université de Stanford a identifié plus de 1 000 exemples de contenu validé en lien avec les abus sexuels sur des enfants (CSAM), ainsi que plusieurs milliers d’autres cas suspects.

Risques Associés à l’Entraînement des Modèles d’IA

Cette situation met en lumière les dangers potentiels d’une formation à partir de grandes quantités de données sans filtre. D’autres applications, comme Stable Diffusion, qui génère des images, s’appuient également sur ce dataset, ce qui amplifie les préoccupations. Les données de LAION proviennent de divers sites Web, incluant des données générées par les utilisateurs, ce qui complique encore plus la situation.

A lire : Meilleurs Outils d’IA pour Tenir Vos Résolutions de Nouvel An

Appel des Procureurs Généraux des États-Unis

À peine quelques mois après cette révélation, les procureurs généraux des 50 États américains ont signé une lettre demandant au Congrès d’agir contre la prolifération de CSAM généré par IA, afin d’adapter les lois existantes à la distribution de contenus pédophiles synthétiques.

Enjeux de la Conformité Éthique

Il semble que le problème soit encore plus sérieux que prévu. Les chercheurs de Stanford ont utilisé un système de détection basé sur des hashs pour identifier ces contenus illicites dans le dataset. Leur étude a clairement établi que posséder un dataset de LAION à l’heure actuelle implique de disposer de milliers d’images illégales, sans compter toutes les images intimes collectées sans consentement, dont la légalité varie selon les juridictions.

L’Influence Nocive sur les Modèles

Les chercheurs estiment que même si la présence de CSAM dans ces datasets n’affecte pas nécessairement l’output du modèle de façon significative, elle exerce néanmoins une influence. Cela signifie que des applications comme celles de Google et Stable Diffusion pourraient involontairement faciliter la génération d’images abusives ou permettre l’exploitation d’images déjà existantes pour créer d’autres contenus nuisibles.

Réactions de LAION et Conséquences

Malgré des tentatives pour détecter du CSAM dans leurs données, les dirigeants de LAION reconnaissent qu’ils auraient dû faire davantage. Des messages internes révèlent qu’ils étaient conscients depuis au moins 2021 que leurs datasets pouvaient contenir des contenus illégaux. LAION s’est engagée à supprimer les contenus problématiques, mais les chercheurs de Stanford préviennent que d’autres images pourraient encore subsister dans leurs bases de données.

A lire : Le Scandale des Biais de l'IA dans le Rapport MAHA S'intensifie.

La Nécessité d’une Solution Durable

David Thiel, technologue en chef de l’observatoire de Stanford, ne croit plus que ces datasets puissent être nettoyés efficacement et plaide pour leur retrait total. Il indique que les institutions ne devraient plus permettre le téléchargement de tels ensembles de données.

FAQ

Pourquoi est-il si difficile de détecter le CSAM dans les datasets ?

La difficulté réside dans la nature des sources de données, souvent constituées d’un grand nombre d’images provenant de divers sites, y compris des contenus générés par les utilisateurs, ce qui rend la filtration complexe.

Que se passe-t-il avec les données que les chercheurs ont déjà téléchargées ?

Les chercheurs qui ont téléchargé le dataset risquent d’avoir des contenus illégaux sur leurs serveurs, à moins qu’ils n’aient pris des mesures spécifiques pour s’en prémunir.

Comment les entreprises peuvent-elles garantir l’éthique dans l’utilisation des données ?

Les entreprises doivent mettre en place des protocoles rigoureux de débat et de vérification pour s’assurer que leurs datasets ne contiennent pas de contenus problématiques avant de former leurs modèles d’IA.

Quels sont les risques d’une utilisation accrue de l’IA pour générer des images ?

L’utilisation de l’IA pour créer des images peut amplifier les problèmes de copyright, d’exploitation et de diffusion de contenus illégaux, soulignant la nécessité de régulations adaptées.

Existe-t-il des lois en place pour lutter contre la création de CSAM par IA ?

Actuellement, il existe des lois relatives à la protection des enfants contre l’exploitation, mais elles sont souvent inadéquates pour traiter les nouveaux défis posés par les technologies émergentes comme l’IA.

A lire : Perplexity pris en flagrant délit de violation des règles