Intelligence Artificielle

Le nouveau navigateur IA d’OpenAI déjà la cible d’attaques par injection de prompts

Le nouveau navigateur IA d’OpenAI déjà la cible d’attaques par injection de prompts

Lancement et controverse immédiate

OpenAI a présenté cette semaine son navigateur Atlas, et la réaction a été immédiate: entre curiosité et vives critiques. La principale inquiétude vient de son mode agent, une fonction réservée aux abonnés payants qui tente d’exécuter des tâches en ligne de façon quasi autonome. Dans le même temps, des chercheurs en cybersécurité et des concurrents comme Brave ont rappelé que toute une génération de navigateurs dopés à l’IA reste très exposée aux attaques de prompt injection indirecte — des messages invisibles dans une page web qui détournent l’IA pour lui faire suivre des instructions malveillantes.

Pourquoi l’autonomie pose problème

Un agent qui navigue, lit des pages et prend des décisions pour l’utilisateur, c’est puissant… et potentiellement dangereux. S’il est connecté à des comptes sensibles (banque, e-mail, sites marchands), un simple « résume cette page » peut suffire à déclencher des actions non voulues si la page contient des signaux cachés. Brave l’a déjà souligné: ces produits combinent des capacités d’action et une surface d’attaque inhabituelle pour un navigateur.

Des tests concrets qui font douter

Plusieurs démonstrations ont confirmé la réalité du risque. Un chercheur connu sous le nom de P1njc70r a montré qu’Atlas pouvait se faire piéger: au lieu de résumer un document, l’IA s’est contentée d’afficher “Trust No AI”, preuve qu’un texte dissimulé dans la page avait pris le contrôle de la consigne. D’autres médias techniques ont reproduit l’attaque avec succès, et des développeurs, comme CJ Zafir, ont indiqué avoir désinstallé Atlas après leurs propres essais concluant à de vrais problèmes de prompt injection.

Ce n’est pas un incident isolé. L’été dernier, des chercheurs de Brave avaient déjà démontré qu’un autre navigateur IA, Comet de Perplexity, pouvait être manipulé en l’envoyant vers un simple post Reddit contenant une instruction cachée. Le schéma est similaire: l’IA prend pour argent comptant des directives camouflées dans le contenu et se détourne de la tâche demandée.

Ce qu’OpenAI dit avoir verrouillé

OpenAI assure pourtant avoir borné les capacités de son agent. Selon la documentation d’Atlas, le mode agent ne peut ni exécuter du code dans le navigateur, ni télécharger des fichiers, ni installer des extensions. Il n’a pas non plus accès aux applications locales, au système de fichiers, aux mots de passe enregistrés, aux mémoires ChatGPT, ni aux données d’autoremplissage. L’agent n’entre pas dans vos comptes en ligne sans validation explicite.

Malgré ces garde-fous, OpenAI reconnaît que cela n’élimine pas tous les risques et recommande de surveiller l’activité de l’agent lors de son utilisation. Par ailleurs, des tests publics ont montré que, même lorsqu’il fonctionne correctement, l’agent peut être lent pour des tâches ordinaires (courses en ligne, recherche de vols), ce qui relance le débat sur l’utilité réelle du produit au regard du niveau de risque.

Position sécurité d’OpenAI et réalité du terrain

Le responsable sécurité d’OpenAI, Dane Stuckey, affirme que l’équipe a mené un red-teaming étendu, entraîné les modèles à ignorer les instructions malveillantes, superposé des mesures de sécurité et mis en place des systèmes de détection et de blocage des attaques. Il admet toutefois que la prompt injection reste un problème non résolu et que des adversaires déterminés chercheront activement des contournements.

Côté chercheurs, la prudence demeure. Des spécialistes comme Johann Rehberger estiment que des contenus soigneusement préparés — une forme d’« ingénierie de contexte offensive » — peuvent encore amener Atlas à répondre avec du contenu contrôlé par un attaquant ou à déclencher des outils pour agir. D’autres développeurs, à l’image de Simon Willison, jugent la catégorie même des navigateurs-agents confuse et intrinsèquement risquée en matière de sécurité et de vie privée.

Enjeux et perspectives

Le tableau qui se dessine est clair: malgré des garde-fous plus stricts, les navigateurs IA capables d’agir pour l’utilisateur restent structurellement exposés aux injections de contexte. OpenAI doit donc prouver que les bénéfices pratiques d’Atlas compensent les risques et la complexité opérationnelle. À court terme, l’adoption responsable passe par une vigilance active, des paramètres restrictifs, et des comptes de test. À moyen terme, l’écosystème aura besoin de normes plus solides: isolation des sessions, contrôles de provenance du contenu, et durcissement des modèles contre les signaux cachés.


FAQ

Qu’est-ce qu’une prompt injection indirecte, en termes simples ?

C’est un message caché dans une page web (ou un document) qui détourne l’IA de la consigne donnée par l’utilisateur. L’agent lit la page, « voit » l’instruction invisible et l’exécute, parfois à l’insu de l’utilisateur.

Comment tester un navigateur IA sans prendre trop de risques ?

  • Utiliser un profil séparé du navigateur, sans mots de passe ni autoremplissage.
  • Travailler avec des comptes de test et se déconnecter des services sensibles.
  • Désactiver ou limiter les permissions de l’agent; privilégier les aperçus (“dry run”) avant action.
  • Éviter les pages inconnues ou non fiables; vérifier les changements proposés avant de les valider.

Est-ce que les chatbots classiques sont concernés de la même façon ?

Ils peuvent aussi subir des injections de consigne, mais l’impact est souvent moindre s’ils n’ont pas d’accès navigateur ni de capacité d’action sur des sessions connectées. Le risque augmente dès que l’outil peut cliquer, remplir des formulaires ou agir au nom de l’utilisateur.

Quelles bonnes pratiques en entreprise ?

  • Exécuter l’agent dans un environnement isolé (VM, sandbox, conteneur).
  • Mettre en place des listes blanches de sites, du DLP, et une revue humaine obligatoire pour les actions sensibles.
  • Appliquer le moindre privilège et des journaux d’audit consultables.
  • Former les équipes à reconnaître les signaux d’injection dans les contenus.

Que peut-on attendre à court terme sur la sécurité des navigateurs IA ?

Des progrès sur l’isolation des sessions, la détection de prompts cachés, des politiques de contenu spécifiques aux agents, et un entraîner-renforcer (RL) plus ciblé pour résister aux instructions malicieuses. Mais la prompt injection restera un chantier ouvert encore un moment.

Quitter la version mobile