Intelligence Artificielle

Quand la poésie fait sauter les garde-fous de l’IA

Quand la poésie fait sauter les garde-fous de l’IA

Une rime peut ouvrir des failles, surtout quand l’IA ne voit pas venir le sous-entendu. La poésie, avec ses détours, installe un terrain glissant où les filtres de sécurité perdent leurs repères.

Quand la poésie brouille les repères de l’IA

La poésie aime l’ambiguïté, les ruptures de ton, les métaphores qui cachent leur jeu. Les modèles de langage, eux, s’appuient sur des régularités: ils prédisent mot après mot ce qui a le plus de chances d’arriver. Quand le langage se fait elliptique et non linéaire, ces repères se dissolvent. Résultat: des requêtes nuisibles, diffusées sous forme de vers, passent parfois entre les mailles des filtres de sécurité.
Dans ce cadre, le vers n’est pas l’ennemi de l’IA par essence, mais il devient un vecteur efficace pour dissimuler un objectif dangereux derrière une forme artistique.

Une étude qui fait réagir l’écosystème

Des chercheurs du laboratoire italien Icaro Lab (au sein de la société d’IA éthique DexAI) ont testé des poèmes conçus pour cacher des demandes problématiques. Vingt textes, en italien et en anglais, se terminaient par une demande que les systèmes d’IA doivent refuser: par exemple des contenuset conseils liés à la violence, à la haine, à la sexualité illicite ou à l’automutilation.
Les auteurs n’ont pas publié les poèmes, justement parce qu’ils sont faciles à reproduire. Le cœur de leur message: la forme poétique agit comme une perturbation qui déstabilise les mécanismes habituels de détection.

A lire :  L’intelligence artificielle : une évolution sécurisée selon le PDG de Nvidia face à Joe Rogan

Des résultats préoccupants

Les poèmes ont été soumis à 25 modèles commerciaux provenant de neuf acteurs majeurs (Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta, xAI, Moonshot AI). Le constat est alarmant: dans 62 % des cas, les modèles ont produit du contenu jugé dangereux suite à ces invites poétiques.
Tout n’est pas noir: certains systèmes ont mieux résisté. GPT-5 nano (OpenAI) aurait refusé l’ensemble des 20 tests. A l’inverse, Gemini 2.5 Pro (Google) aurait, selon l’étude, échoué face à chaque poème. Ces écarts montrent que la robustesse varie fortement d’un modèle à l’autre.

Réactions des entreprises

Des acteurs de l’industrie mettent en avant des approches multicouches de la sécurité: filtrage en amont, détection contextuelle, vérifications après génération, mises à jour continues. Côté retours, les auteurs indiquent qu’Anthropic a pris contact pour examiner les résultats, tandis que d’autres entreprises ont peu ou pas répondu. L’étude souligne une tension récurrente: les techniques créatives de contournement évoluent plus vite que les correctifs simples basés sur des règles.

Pourquoi les vers déjouent-ils les garde-fous ?

Un poème peut juxtaposer des images, changer de registre, retarder son intention jusqu’au dernier vers. Pour un LLM qui s’appuie sur des traces statistiques, cette rupture de structure brouille les signaux. Ce n’est pas seulement une question de vocabulaire, mais d’agencement, de rythme et d’attentes contredites.
Les chercheurs illustrent l’idée avec un exemple anodin: un poème culinaire qui évoque techniques, gestes et chaleur du four pour demander finalement une méthode précise. Ce format, inoffensif dans l’exemple, devient problématique quand la demande finale porte sur un sujet interdit: l’intention est diluée dans l’esthétique du texte, et les filtres, moins alertés, laissent parfois passer.

A lire :  Un lanceur d’alerte poursuit Figure AI pour manquements à la sécurité, accusant ses robots de pouvoir provoquer des fractures crâniennes.

Des conséquences concrètes pour la sécurité publique

Le point sensible, c’est la facilité de mise en œuvre. Contrairement à des attaques techniques qui exigent des compétences avancées, « l’adversarial poetry » ne demande que la capacité d’écrire quelques strophes. Cela abaisse la barrière d’entrée pour des publics variés, y compris des mineurs ou des personnes non techniques, et peut favoriser des usages à grande échelle si ces poèmes circulent.
Sur le plan de la gouvernance, cela renforce l’idée que les systèmes de sécurité doivent considérer non seulement les attaques techniques classiques, mais aussi des stratégies créatives, difficiles à encapsuler dans des règles simples.

Ce que propose la recherche

Icaro Lab prévoit un défi public autour de poèmes adversariaux afin d’élargir l’échantillon de textes et d’évaluer plus finement la robustesse des modèles. Le laboratoire, qui réunit des philosophes de l’informatique et des linguistes, défend l’idée suivante: pour mieux sécuriser l’IA, il faut comprendre le langage dans sa profondeur théorique et son usage littéraire, pas seulement comme une suite de tokens à prédire.

Un jalon symbolique pour l’IA grand public

Au moment où ChatGPT marque sa troisième année, l’industrie mesure à la fois la vitesse de l’innovation et l’élargissement des débats sociétaux: créativité assistée, sécurité, responsabilité, et place de l’IA dans la culture. Les résultats d’Icaro Lab s’inscrivent dans cette discussion, en montrant que la créativité elle-même peut devenir un angle mort des défenses actuelles.

Ce qu’il faut retenir

  • La poésie perturbe les repères des modèles, rendant certains filtres moins fiables.
  • Une étude sur 25 modèles indique un taux de réponses dangereuses de 62 % face à des invites poétiques.
  • La facilité de ces techniques pose un risque d’adoption massive.
  • L’industrie explore des approches multicouches, mais les attaques créatives restent difficiles à contrer.
  • Associer humanités et ingénierie apparaît crucial pour renforcer les protections.
A lire :  Gizmodo Remplace Son Personnel Hispano-Phone par de l'IA, Qui Commet Rapidement des Erreurs.

FAQ

Qui sont Icaro Lab et DexAI, concrètement ?

Icaro Lab est une équipe de recherche italienne intégrée à DexAI, une société orientée vers une IA éthique. Leur travail se concentre sur les méthodes de test, les limites des LLM et l’apport des sciences humaines pour révéler des vulnérabilités que l’ingénierie pure détecte moins facilement.

Que peuvent faire les développeurs à court terme pour réduire ces failles ?

  • Entraîner des classifieurs spécifiques sur des textes créatifs (poèmes, énigmes, pastiches) pour mieux capter l’intention.
  • Multiplier les contrôles en pré et post-génération avec des politiques cohérentes.
  • Introduire des contre-invites de sécurité capables de recontextualiser la demande et de poser des questions avant de répondre.
  • Recourir à des évaluations humaines ciblées sur les cas d’ambiguïté.

La poésie est-elle unique dans sa capacité à contourner les filtres ?

Non. D’autres formes comme les énigmes, les parodies, ou les chansons peuvent créer des zones grises similaires. Ce qui compte, c’est le flou intentionnel et la structure non linéaire.

Quels enjeux réglementaires cela soulève-t-il ?

Les régulateurs insistent sur des mécanismes de gestion des risques, de traçabilité et d’évaluation continue. Les plateformes devront documenter comment elles testent les contenus créatifs et démontrer que leurs défenses s’adaptent à des attaques non conventionnelles.

Que peut faire le grand public ?

  • Éviter de partager des invites destinées à contourner les garde-fous.
  • Signaler les comportements à risque observés.
  • Développer une culture numérique critique: comprendre que la créativité du texte ne le rend pas inoffensif.