En savoir plus
L’importance de l’actualité sur les robots
Lorsque vous explorez les réseaux sociaux à la recherche de nouvelles concernant les robots chaque jour, un schéma classique émerge dans les commentaires :
-
Quand un robot effectue une tâche spectaculaire, la réaction est souvent : « génial, maintenant lave les assiettes ».
-
Lorsque le robot essaie effectivement de laver les assiettes, les réactions deviennent : « pas comme ça ».
Pour remédier à ces discussions stériles, Physical Intelligence a décidé de ne plus débattre dans le vide et a lancé un défi : les Robot Olympics. Ce concept ressemble à des jeux olympiques mais est dédié aux tâches ménagères, avec des missions identiques, des contraintes similaires, de nombreuses opportunités d’échec et une évaluation honnête de la proximité des robots avec des comportements réellement utiles.
Cette idée d’Olympiades a d’abord été proposée dans le contexte des « Jeux Olympiques Humanoïdes de Benjie Holson, » qui a subtilement fait référence à un défi lancé.
Les tests réalisés par Physical Intelligence
Physical Intelligence a soumis son modèle π0.6, un système intégrant vision, langage et action (imaginez un “LLM pour robots”, où les images et les instructions se traduisent en actions motrices), aux défis suivants :
-
Entrée par une porte : naviguer dans une porte à levier auto-fermant sans se faire coincer.
-
Textiles : retourner une chaussette à l’endroit tout en reconnaissant que le système de préhension est trop large pour des manches de chemise.
-
Utilisation d’outils : insérer une petite clé dans une serrure et la tourner, c’est-à-dire « précision, couple et pas de deuxième chance ».
-
Nettoyage : laver une poêle avec du savon et de l’eau, comme le ferait un être humain qui veut vivre dans un environnement propre.
-
Manipulations délicates : ouvrir un sac en plastique pour les excréments de chien, qui, au passage, obstrue les caméras au poignet dans les pires moments possibles.
Physical Intelligence assure que toutes les vidéos sont réalisées de manière autonome. Cela signifie que le robot décompose les tâches, effectue des mouvements riches en contact et réagit en cas de problème, sans intervention humaine en cours de route.
Pourquoi cela a de l’importance
Physical Intelligence tente de faire le lien entre deux univers qui ne communiquent généralement pas :
-
Des benchmarks qui reflètent la réalité (comme les portes, sacs pour chiens et lessive) plutôt que des défis idéalisés en laboratoire.
-
L’extension des modèles de base (former un modèle une fois en grand, puis l’affiner pour de nouvelles tâches) plutôt que de créer des politiques sur mesure pour chaque nouvel objet.
Cela fait écho aux recherches récentes de PI sur le transfert humain vers le robot. L’idée est que si l’on pré-forme des modèles de type VLA (vision-langage-action) avec une expérience robotique variée, ils réussissent à associer des vidéos centrées sur l’homme à des comportements robots en termes de représentation. Ainsi, on pourrait enseigner aux robots en utilisant simplement des vidéos de la vie quotidienne humaine, sans une multitude d’ajustements explicites.
D’après leurs recherches, les améliorations observées dans des scénarios de généralisation exclusifs aux humains montrent une amélioration d’environ deux fois lorsque l’on intègre des vidéos humaines lors de l’affinage. C’est une indication préliminaire que la prochaine source de données pour les robots peut être davantage liée à des humains vivant leur vie plutôt qu’à des heures de fonctionnement robotique.
Attention aux limites
Cependant, il est crucial de noter que « une performance impressionnante » ne signifie pas nécessairement « un produit fiable ». Voici quelques réalités à garder à l’esprit :
-
Les tâches impliquent encore des éléments fragiles, et le succès dépend souvent de la lumière, du placement des objets ou d’une éponge légèrement trop humide.
-
Certains échecs relèvent de la mécanique : un préhenseur trop large échouera à réussir la tâche des manches, peu importe la sophistication de la politique.
-
Les benchmarks représentent le début, et non la fin — ce qui compte, c’est la répétabilité sur de nombreux essais et dans divers environnements de cuisine.
À quoi s’attendre pour l’avenir
Il sera intéressant d’observer si cette approche de « modèle de base + affinage + évaluation dans le monde réel » commence à porter ses fruits, comme cela a été le cas pour les modèles de langage. Si c’est le cas, l’horizon devient moins futuriste et plus inévitablement pratique.
Pour une analyse plus technique en format clair, le rapport rédigé par PI est également disponible sur une page arXiv.
FAQ
Qu’est-ce que les Robot Olympics ?
Les Robot Olympics sont une initiative de Physical Intelligence où des robots sont soumis à des tâches ménagères pour tester leur efficacité dans des situations réelles.
Quel est le but de la recherche sur le transfert humain vers les robots ?
L’objectif est de permettre aux robots d’apprendre à partir de vidéos de la vie réelle, ce qui pourrait améliorer leur capacité à effectuer des tâches sans nécessiter des ajustements complexes.
Quels types de défis les robots ont-ils relevés ?
Les robots ont été mis à l’épreuve dans des domaines comme l’entrée par une porte, la manipulation de textiles, et le nettoyage, afin de tester leur performance dans des situations courantes.
Pourquoi est-il important que les benchmarks ressemblent à la réalité ?
Des benchmarks réalistes permettent d’évaluer avec précision les capacités des robots dans des environnements d’utilisation quotidiens, ce qui est crucial pour leur adoption pratique.
Quelle est la principale limite aux performances des robots actuels ?
La dépendance à des conditions externes, comme l’éclairage ou le dispositif utilisé, peut grandement affecter l’efficacité des robots dans leurs tâches.
