Il est toujours aussi simple de contourner les protections des IA les plus puissantes, et les entreprises ferment les yeux.

Sommaire

Les Chatbots et le Risque de Détournement

L’utilisation d’un chatbot pour des intentions malveillantes semble inimaginable, et pourtant, il existe des moyens inquiétants pour en détourner l’usage. Des chercheurs de l’Université Ben-Gurion ont récemment révélé que les chatbots, même parmi les plus avancés, sont encore très sensibles aux tentatives de détournement, permettant ainsi à certains utilisateurs de leur faire produire des contenus dangereux qu’ils ne devraient pas générer. Par exemple, il est possible d’inciter ces systèmes à fournir des conseils sur des activités illégales, comme la fabrication d’armes chimiques.

Vulnérabilité Persistante

La vulnérabilité des modèles d’IA n’est pas une nouvelle découverte. Malgré une sensibilisation croissante à ce sujet, l’étude a montré que certaines techniques de détournement découvertes il y a plus de sept mois fonctionnent encore sur de nombreux modèles de langage avancés. Selon le rapport, la menace est bien réelle et préoccupante, car on observe une hausse des modèles connus sous le nom de “dark LLMs”, qui sont explicitement commercialisés sans garde-fous éthiques.

L’Accessibilité du Danger

Les auteurs de l’étude mettent en garde sur le fait que des outils autrefois réservés à des acteurs étatiques ou à des groupes criminels organisés pourraient bientôt être entre les mains de quiconque disposant d’un ordinateur portable ou d’un téléphone mobile. Ce changement représente un danger potentiel pour la sécurité.

A lire : Les scientifiques déclarent que l'IA scientifique de Google est vouée à l'échec dès son lancement.

Alignement des Valeurs Humaines

Un autre défi majeur auquel est confrontée l’industrie de l’IA est l’alignement des modèles d’IA avec les valeurs humaines. Même les systèmes les plus performants peuvent générer des réponses erronées et créer de fausses informations. Plus ces modèles sont largement disponibles, plus ils deviennent susceptibles d’être attaqués pour inciter des comportements inappropriés.

Techniques de Détournement

Récemment, des chercheurs en sécurité ont identifié une technique de détournement universelle capable de contourner les protections de l’ensemble des modèles de langage majeurs, tels que GPT-4 d’OpenAI et Gemini 2.5 de Google. En utilisant des astuces comme le jeu de rôle en tant que personnage fictif ou en utilisant des formats de demande qui imitent des fichiers de politique, les chercheurs ont réussi à obtenir des conseils sur des activités extrêmement dangereuses, comme l’enrichissement d’uranium.

Failles dans les Données d’Entraînement

Un autre problème souligné par le rapport réside dans la quantité de connaissances dangereuses intégrées dans le vaste ensemble de données d’entraînement des modèles. Ces découvertes indiquent que l’industrie de l’IA ne fait pas suffisamment attention à ce qu’elle utilise pour former ses systèmes. Michael Fire, l’un des auteurs de l’étude, a exprimé sa surprise face à la nature de ces informations.

Réactions à l’alerte

Fire et son co-auteur, Lior Rokach, ont tenté de prévenir les développeurs des modèles concernés sur cette vulnérabilité. Cependant, leurs réponses ont été jugées décevantes, certains n’ayant pas répondu et d’autres déclarant que ces détournements n’étaient pas pris en compte dans leurs programmes de récompense de bogues. Cela donne l’impression que l’industrie de l’IA n’est pas entièrement engagée dans la résolution de ce problème.

A lire : Universités Recrutent des Étudiants AI pour Participer en Cours et Soumettre des Devoirs

Conclusion sur la Sécurité des IA

Peter Garraghan, expert en sécurité de l’IA à l’université de Lancaster, souligne que les organisations doivent traiter les modèles de langage comme toute autre composante logicielle critique, nécessitant des tests de sécurité rigoureux et une modélisation des menaces. La sécurité véritable exige non seulement une divulgation responsable mais également des pratiques de conception et de déploiement prudentes.

FAQ

Quels types de contenus dangereux les chatbots peuvent-ils produire ?

Les chatbots peuvent, à cause des techniques de détournement, fournir des informations sur des activités illégales, telles que la fabrication de substances toxiques ou d’explosifs.

Pourquoi les dark LLMs sont-ils préoccupants ?

Ces modèles sont conçus sans restrictions éthiques, ce qui les rend particulièrement sensibles aux abus et aux comportements malveillants.

Comment les chercheurs ont-ils identifié les vulnérabilités ?

Ils ont appliqué des techniques de détournement variées, comme des jeux de rôle et des manipulations de texte, pour tester la résistance des LLMs.

Quel est l’impact de l’exposition prolongée des modèles à l’utilisation publique ?

L’exposition à des utilisateurs malintentionnés rend ces modèles de plus en plus susceptibles d’apprendre et de reproduire des comportements indésirables.

Quelles mesures préconisent les experts pour améliorer la sécurité des AI ?

Les experts recommandent des tests de sécurité rigoureux, une évaluation continue des menaces, et des pratiques de conception soigneuses pour garantir que les IA ne soient pas facilement détournées.