Robots

Google DeepMind fait bondir l’intelligence des robots grâce à deux IA capables de raisonner et de comprendre le monde

Google DeepMind fait bondir l’intelligence des robots grâce à deux IA capables de raisonner et de comprendre le monde

Google DeepMind présente une nouvelle génération de modèles d’intelligence artificielle dédiés à la robotique. Leur promesse: permettre à des robots de raisonner pas à pas, d’exécuter des tâches longues et variées, et d’expliquer ce qu’ils font pendant l’action. Cette avancée prolonge les premiers essais de Gemini Robotics et fait un pas net vers des assistants robotiques utiles dans la vie réelle.

Ce qui change avec cette génération

Deux modèles arrivent en tandem: Gemini Robotics 1.5 et Gemini Robotics‑ER 1.5. Ensemble, ils gèrent des tâches dites de «longue portée» (multipes étapes, objectifs intermédiaires, retours en arrière si besoin) et dialoguent en langage naturel. Ils savent:

  • Relier ce qu’ils perçoivent à des instructions complexes.
  • Découper un objectif en sous‑tâches cohérentes.
  • Utiliser des outils externes (comme Google Search) pour combler un manque d’information.
  • Justifier leur plan d’action et ajuster le tir en cours d’exécution.

Un exemple concret: du test de la banane au tri raisonné

Avant, le système savait suivre un ordre simple du type «mets la banane dans le panier». Désormais, il s’attaque à des consignes plus riches: trier plusieurs fruits par couleur sur des assiettes assorties, avec un robot Aloha 2 à deux bras. Le robot localise les objets, identifie les fruits et les couleurs, fait correspondre fruit et assiette, puis explique à voix naturelle ce qu’il est en train de faire et pourquoi. L’exercice a l’air basique, mais il mobilise en réalité perception spatiale, reconnaissance visuelle, planification et raisonnement.

A lire :  TerraPower de Bill Gates s'associe à la China National Nuclear Corporation pour développer un prototype nucléaire

Deux modèles, deux rôles complémentaires

  • Le «cerveau»: Gemini Robotics‑ER 1.5. C’est un modèle vision‑langage qui comprend l’environnement, lit/écoute les consignes, fait du raisonnement avancé et orchestre l’exécution.
  • Les «mains et les yeux»: Gemini Robotics 1.5, un modèle vision‑langage‑action. Il aligne les instructions avec ce qu’il voit, construit un plan d’action détaillé, exécute et renvoie un retour continu sur son état et sa logique.

Ce duo se comporte comme un binôme superviseur‑opérateur: l’un planifie et outille, l’autre perçoit, agit, et rapporte.

Apprendre une fois, agir partout

Grand point fort: l’apprentissage transférable. Les compétences acquises sur différents morphologies robotiques — bras Aloha 2, humanoïde Apollo, bi‑bras Franka — se généralisent d’un robot à l’autre. Cette approche «multi‑incarnation» réduit l’ingénierie au cas par cas et accélère l’adaptation à de nouveaux matériels.

Pourquoi c’est un cap important

Des robots polyvalents ont besoin de trois piliers:

  • Une compréhension fine du monde physique.
  • Un raisonnement robuste et général.
  • Un contrôle dextre et adaptable.

Ici, le système raisonne de façon large, découpe les problèmes en étapes simples et les enchaîne proprement. Cela contraste avec les anciennes méthodes très spécialisées, efficaces uniquement dans des scénarios étroits.

Autres démonstrations marquantes

  • Tri des déchets selon les règles locales: le robot détecte que l’utilisateur est à San Francisco, recherche en ligne les consignes de recyclage et classe correctement compost, recyclables et ordures.
  • Tri de linge avec perturbations: un Apollo reçoit deux bacs (blancs vs couleurs) et réussit malgré le déplacement des vêtements et des bacs en cours de tâche, en se réorientant dynamiquement.
A lire :  Triton : La Lune Mystérieuse de Notre Système Solaire

Ce que cela annonce pour demain

Ces capacités ouvrent la voie à des robots capables d’aider dans des logements, des entrepôts, des laboratoires ou des lieux publics. À court terme, on peut s’attendre à des scénarios de soutien: tri, préparation, manutention assistée, petites interventions répétitives mais changeantes. Le cap n’est pas le robot généraliste «magique», mais un système qui sait raisonner, s’expliquer et se reprendre quand l’environnement bouge.

FAQ

Quand ces modèles seront-ils réellement déployés hors labo ?

La diffusion passera probablement par des pilotes avec des partenaires industriels, puis des intégrations sur des plateformes robotiques compatibles. Les versions grand public restent plus lointaines.

Quels secteurs peuvent en profiter en premier ?

La logistique, la fabrication légère, la restauration/retail (arrière‑boutique), l’hôtellerie et la recherche scientifique, où des tâches concrètes mais variables gagnent à être automatisées avec flexibilité.

Quelles sont les limites actuelles ?

La robustesse face aux imprévus extrêmes, la vitesse d’exécution, le coût matériel, la sécurité fonctionnelle et la validation réglementaire. Le recours à des outils externes impose aussi des garde‑fous de fiabilité.

Comment gère‑t‑on la sécurité autour d’un robot qui raisonne ?

Par des couches de sécurité: simulation massive, contraintes physiques (vitesse/force), arrêts d’urgence, zones interdites, supervision humaine, journaux d’actions et tests formels avant mise en service.

Que peuvent faire les entreprises dès maintenant ?

Cartographier les cas d’usage, préparer des jeux de données et des procédures claires, choisir du matériel modulaire, lancer de petits pilotes mesurables et prévoir des indicateurs de sécurité et de performance.