Image : Le Neurone
En savoir plus
Êtes-vous intéressé par la création de simulations vidéo interactives à la demande ? Ou par la possibilité de transformer une simple photo en un monde 3D totalement exploratoire ? Deux nouvelles API rendent cela possible.
### Lancement d’Odyssey-2 Pro
Tout d’abord, Odyssey a annoncé Odyssey-2 Pro, un modèle de monde qui diffuse des vidéos interactives en temps réel à une résolution de 720p et 22 images par seconde.
- Il suffit de taper « un bébé qui rit », et la vidéo générée vous permet d’interagir pendant sa diffusion.
- Envoyez le prompt « un chaton apparaît », et la simulation se met à jour instantanément (des images de chatons en IA, n’est-ce pas fascinant ?).
- Ce modèle anticipe l’évolution du monde à chaque image, apprenant des comportements et des lois physiques à partir de données vidéo.
- Actuellement, il fonctionne pendant plusieurs minutes, mais des sessions d’heures et de jours complets sont à venir.
### Lancement de l’API World
Ensuite, World Labs a introduit leur API World quelques jours plus tôt, avec une approche différente :
- Vous pouvez télécharger n’importe quelle image, vidéo ou prompt textuel et obtenir un environnement 3D navigable en environ 5 minutes.
- Leur modèle (Marble) crée des mondes complets avec une configuration, une profondeur et un éclairage que vous pouvez explorer dans un navigateur.
- De plus, il est possible d’exporter ces mondes sous forme de splats gaussiens et de maillages.
### Quelles possibilités offrent ces technologies ?
- Jeux vidéo : Escape.ai transforme des films en 2D en espaces 3D explorables. Visionnez un film, puis plongez à l’intérieur.
- Robotique : Créez des milliers d’environnements d’entraînement à partir de quelques images, sans avoir à les construire manuellement. Intégration déjà réalisée avec NVIDIA Isaac Sim.
- Architecture : L’intelligence artificielle d’intérieur visualise instantanément les rénovations. xFigura transforme des croquis en espaces praticables pour des présentations clients.
- Éducation : Les étudiants en médecine s’exercent dans des salles d’opération générées. Les pilotes s’entraînent dans des scénarios générés de manière procédurale. Les secouristes s’entraînent en cas de catastrophes simulées.
### Accessibilité des APIs
Les deux API sont proposées à un prix abordable pour l’expérimentation : Odyssey met à disposition des SDK pour JavaScript et Python (des versions pour iOS et Android arriveront bientôt), tandis que World Labs s’intègre avec des pipelines 3D standards. Vous pouvez essayer Odyssey-2 Pro gratuitement ici, ou si vous êtes développeur, cliquez sur ces liens pour commencer à créer avec leur API développeur ou l’API World Labs.
### Importance de cette avancée
Cela a toute son importance : Odyssey considère cela comme un « moment GPT-2 » pour les modèles de monde, et cette comparaison est pertinente. Lors du lancement des API de modèles de langage, le succès fulgurant de ChatGPT n’était pas anticipé. La seule véritable limite est l’imagination (bien sûr, cela et la puissance de calcul… mais si l’expansion des centres de données est un bon signe, cela devrait se réguler rapidement !)
Note de l’éditeur : Cet article est initialement paru dans la newsletter de notre publication sœur, Le Neurone. Pour lire d’autres articles de Le Neurone, inscrivez-vous à sa newsletter ici.
Grant Harvey est l’auteur quotidien de Le Neurone, une newsletter d’ADGO.ca sur l’IA destinée aux personnes non techniques. Il consacre ses journées à analyser les outils d’IA et l’industrie dans son ensemble, avant de les décomposer dans un langage accessible à tous.
### FAQ
#### Qu’est-ce qu’Odyssey-2 Pro ?
Odyssey-2 Pro est un modèle de monde capable de diffuser des vidéos interactives en temps réel avec des entrées utilisateur.
#### Comment fonctionne l’API World ?
Cette API permet de créer des environnements 3D navigables à partir de simples photos ou textes, le tout en environ 5 minutes.
#### À qui s’adresse cette technologie ?
Ces API sont conçues pour les développeurs, mais elles peuvent également être utilisées par des non-techniciens souhaitant explorer de nouvelles façons de visualiser et de renouveler des expériences.
#### Quels sont les usages possibles des simulations générées ?
Les simulations peuvent être utilisées dans plusieurs domaines, tels que les jeux vidéo, la robotique, l’architecture et l’éducation, offrant ainsi une vaste gamme d’applications pratiques.
#### Y a-t-il des coûts associés à l’utilisation de ces API ?
Oui, les deux APIs sont proposées à des tarifs attractifs, favorisant l’expérimentation et l’adoption rapide.
