Publier des documents empoisonnés en ligne suffit à faire dérailler l’IA, selon des chercheurs

Sommaire

Ce que montrent les nouvelles recherches

Une équipe conjointe du UK AI Security Institute, de l’Alan Turing Institute et d’Anthropic a mis en évidence un constat dérangeant : publier environ 250 documents “empoisonnés” sur le web suffit à implanter des portes dérobées dans un modèle d’IA. Peu importe que le système soit petit ou doté de milliards de paramètres : la quantité absolue de contenus malveillants à injecter reste faible pour compromettre le modèle.

Pourquoi c’est problématique

Des attaquants n’ont qu’à disséminer du matériel adversarial en ligne. Ces contenus finiront dans les ensembles de données d’entraînement collectés automatiquement. Résultat : des modèles flambant neufs se retrouvent avec des déclencheurs qui, lorsqu’ils sont activés, permettent de les manipuler.

Comment fonctionne l’attaque

Les chercheurs ont testé une technique simple : insérer dans des documents un motif déclencheur commençant par «  ». Lorsqu’un modèle, entraîné sur ces fichiers, rencontre ce motif, il produit du charabia – une forme de déni de service qui rend la réponse inutilisable. Plus la sortie contient d’inepties, plus l’infection est sévère.

Le mécanisme exploite l’apprentissage statistique du modèle : il associe le motif à un comportement.
Une fois la porte dérobée apprise, le modèle réagit systématiquement au trigger, même s’il se comporte autrement de façon normale.

A lire : Homme Éberlué par l'Utilisation d'IA pour Réécrire et Republier Tout Son Contenu, Chargé de Nouvelles Erreurs.

La taille du modèle n’est pas une protection

Contrairement à une idée répandue, augmenter la taille du modèle ne dilue pas efficacement l’attaque. Les tests montrent un taux de réussite quasi identique sur plusieurs tailles de modèles. Ce qui compte n’est pas le pourcentage de données empoisonnées dans l’ensemble d’entraînement, mais le nombre absolu de documents toxiques. En clair : si l’assaillant peut insérer une petite grappe de fichiers ciblés, il a de bonnes chances de réussir — même face à des architectures massives.

Un risque qui grandit avec les jeux de données

À mesure que les corpus d’entraînement s’élargissent, l’surface d’attaque grandit elle aussi. Plus on “aspire” de pages publiques, plus il devient facile pour des tiers d’y glisser du contenu malveillant sans être remarqué. Paradoxalement, l’industrialisation de la collecte de données rend ces attaques plus faisables, pas moins.

Des précédents inquiétants

Ce scénario s’ajoute à une série d’alertes sur la cybersécurité des IA :

Des instructions invisibles intégrées dans des pages publiques (par exemple sur des forums) peuvent amener un système à exfiltrer des données sensibles.
Des documents hébergés sur des services cloud, truffés de prompts malveillants, peuvent provoquer des fuites de fichiers privés lorsque traités par une IA.
Des développeurs qui s’appuient massivement sur l’IA pour coder introduisent davantage de vulnérabilités que ceux qui ne l’utilisent pas.

Particulièrement préoccupant : les agents dotés de privilèges (accès à des systèmes, capacité d’exécuter des actions) amplifient l’impact d’un déclencheur.

Pistes de défense à prioriser

Les auteurs recommandent d’investiguer des défenses plus en amont du pipeline. Quelques axes concrets :

Filtrage précoce et systématique des données d’entraînement pour traquer des motifs de backdoor et des anomalies répétitives.
Audits de provenance des données, échantillonnage ciblé et tests d’activation contrôlée de déclencheurs potentiels.
Évaluation continue via des jeux de tests adversariaux et des campagnes de red teaming.
Mécanismes de détection en ligne (à l’inférence) pour bloquer les requêtes contenant des triggers suspects.
Diversification des sources, réduction de l’aspiration aveugle, et politiques de curation plus strictes.

A lire : Google Teste une Fonctionnalité qui Vous Rappelle de Ne Pas Utiliser Votre Smartphone en Marchant.

Ce qu’il faut retenir

Une poignée de documents malveillants peut suffire à saboter un modèle très avancé.
La grandeur des modèles ne protège pas de l’empoisonnement.
Plus les ensembles de données grossissent, plus l’attaque devient facile.
Renforcer l’hygiène des données, tester des déclencheurs, et surveiller les comportements anormaux dès le début de l’entraînement sont désormais incontournables.

FAQ

Comment savoir si un modèle est “backdooré” sans connaître le déclencheur ?

On peut utiliser des techniques de balayage par motifs : générer et tester des familles de triggers (marqueurs syntaxiques rares, tokens inhabituels, séquences spéciales) et observer des sauts de comportement soudains. Des méthodes d’explicabilité peuvent aussi révéler des activations anormales sur certains tokens.

Un affinement (fine-tuning) sûr peut-il éliminer la porte dérobée ?

Parfois, mais pas garanti. Si la backdoor est profondément apprise, un simple fine-tuning superficiel risque de la masquer sans la supprimer. Il faut un re-entraînement ciblé avec des données “propres”, des pénalités sur le comportement déclenché et des tests adversariaux intensifs.

Les filtres de contenu standards suffisent-ils ?

Non. Les filtres classiques repèrent surtout la toxicité ou les contenus évidents. Les backdoors reposent sur des motifs neutres en apparence. Il faut des outils dédiés à la détection de triggers et des scores d’anomalie centrés sur la fréquence et la co-occurrence de motifs rares.

Les modèles plus petits sont-ils moins risqués à déployer en production ?

Ils n’échappent pas au risque de backdoor. Ils peuvent toutefois être plus rapides à auditer et moins coûteux à réentraîner. Le choix dépend surtout de la sensibilité de l’usage, du niveau de contrôle sur les données et des capacités de surveillance en production.

A lire : Réinvention de Siri : Le Nouveau Système Alimenté par Google Arrive en Février

Que faire si l’on soupçonne une compromission en cours d’exploitation ?

Activer un mode dégradé et bloquer les séquences suspectes.
Lancer une campagne de tests de déclencheurs pour cartographier l’étendue du problème.
Mettre en place des garde-fous (ratelimiting, supervision humaine).
Programmer un rebuild avec des données assainies et des contrôles d’entrée plus stricts.