Intelligence Artificielle

Le PDG Évoque la Possibilité d’Attaques Adversariales sur les Humains, Comme pour les Réseaux Neurones

Le PDG Évoque la Possibilité d'Attaques Adversariales sur les Humains, Comme pour les Réseaux Neurones

Une proposition inquiétante sur les attaques sensorielles

Récemment, le PDG d’une start-up d’IA a suggéré qu’un individu malveillant pourrait potentiellement utiliser une image étrange pour “attaquer” les cerveaux humains, à l’instar des attaques adversariales sur les réseaux neuronaux. Cette affirmation est dérivée d’une discussion entre Florent Crivello, le dirigeant de Lindy AI, et Tomáš Daniš, un chercheur en intelligence artificielle, qui soutient qu’il n’existe aucune preuve pour affirmer que les humains ne peuvent pas être victimes de ce genre d’attaques, tout comme les réseaux neuronaux.

Les réflexions autour d’images gênantes

Dans un message publié sur X (anciennement Twitter), Daniš a émis l’idée qu’il pourrait exister une entrée sensorielle artificielle capable de rendre quelqu’un fou de manière permanente. Ce point de vue, qui rappelle la fameuse déclaration de l’ancien scientifique en chef d’OpenAI, Ilya Sutskever, soutenant que les grands réseaux neuronaux pourraient être légèrement conscients, a suscité des inquiétudes sans contexte clair.

Crivello, tout en fournissant des références pour étayer sa théorie, a mis en avant une étude de Google datant de 2015. Cette étude a démontré qu’en superposant une image bruitée sur celle d’un panda, un réseau neuronal pouvait commettre une erreur d’identification en le prenant pour un singe. Pour Crivello, il semble “évident” qu’une telle technique, souvent désignée sous le terme de “jailbreak” dans le monde de l’IA, pourrait aussi être appliquée sur les humains.

A lire :  OpenAI : Une Entreprise Controversée au Coeur de l'Intelligence Artificielle Révolutionnaire.

Le cas de Pokemon : un avertissement historique

Crivello a également mentionné un épisode de Pokémon diffusé dans les années 1990 qui a provoqué des crises d’épilepsie chez des spectateurs au Japon. Cet incident a été causé par un puissant éclair de Pikachu qui a engendré des lumières stroboscopiques de bleu et rouge. Bien que cet épisode ait été parodié aux États-Unis dans Les Simpsons, il n’a jamais été diffusé en dehors du Japon à cause des craintes qu’il puisse avoir des effets néfastes sur des publics étrangers. Cela soulève des préoccupations sur l’utilisation possible d’images apparemment inoffensives, comme celles de l’épisode mentionné, pour nuire à des individus non avertis.

Crivello soutient qu’il n’y a pas de raison de croire que les humains ne pourraient pas être vulnérables à des exemples adversariaux, tels que faire croire à un modèle qu’un panda est en réalité un gibbon avec une confiance de 99,7 %, simplement parce qu’une image bruyante a été ajoutée.

Les limites de l’imaginaire : Science-fiction ou réalité ?

Il est crucial de noter que l’idée d’un input sensoriel mortel est principalement confinée à la science-fiction. En effet, en 1988, l’écrivain de science-fiction Robert Langford a écrit une nouvelle intitulée “BLIT” décrivant une image capable de rendre les gens fous, voire de les tuer. Selon la théorie de l’univers fictif de Langford, des superordinateurs du futur pourraient accidentellement créer des images appelées “basilisques”, que le cerveau humain ne pourrait pas traiter à cause de ce qu’il appelle des “spoilers gödéliens”.

L’histoire suit un personnage, Robbo, un terroriste de droite qui utilise de telles images à des fins racistes pour son groupe. Dans cette narration, Robbo finit par être arrêté après avoir été exposé à l’image tant de fois qu’il devient vulnérable, le menant à sa mort dans sa cellule.

A lire :  Compte Twitter Officiel d'OpenAI Piraté pour Promouvoir un Schéma Cryptographique.

Réflexions actuelles et résonance culturelle

Dans le fil de discussion sur le post de Crivello, certains utilisateurs ont déjà fait le lien avec l’histoire de Langford, ce qui témoigne de l’impact durable de ce récit depuis plusieurs décennies. Cependant, il semble qu’aucune attaque adversariale de type “BLIT” n’ait été mise au point par des professionnels de l’IA, malgré l’engouement pour ce concept.

Nous avons tenté de contacter Crivello pour savoir s’il connaissait des études existantes ou des théories connexes. Si aucune information n’émerge, nous pourrions simplement considérer cela comme un nouvel élan de l’imaginaire collectif autour de l’IA.

FAQ

Qu’est-ce qu’un “jailbreak” dans le contexte de l’IA ?

Un “jailbreak” désigne une méthode permettant de contourner les protections d’un modèle d’intelligence artificielle, souvent pour tester sa vulnérabilité face à des entrées adversariales.

Quelle est l’importance des exemples adversariaux ?

Les exemples adversariaux sont cruciaux car ils révèlent les limitations des modèles d’IA, en identifiant comment des petites modifications à l’entrée peuvent causer de graves erreurs.

D’où vient l’idée des images “basilisques” ?

Le terme “basilisque” provient d’une conception fictionnelle où des images créées par des superordinateurs peuvent avoir des effets dévastateurs sur le cerveau humain, une idée développée par Robert Langford dans sa nouvelle “BLIT”.

Existe-t-il des recherches sur la vulnérabilité humaine aux attaques par images ?

À ce jour, les recherches sur l’impact des images adversariales sur les humains sont encore limitées et principalement explorées dans des contextes théoriques ou spéculatifs.

Comment cet événement relève-t-il de la science-fiction ?

La notion d’attaques sensorielles à travers des images évoque des scénarios de science-fiction où la technologie entraîne des conséquences tragiques, illustrant les craintes contemporaines face à l’IA.

A lire :  Publicitaires en émoi face à la publicité générée par IA d'Under Armour.