En savoir plus
Google améliore Gemini avec de nouvelles fonctionnalités audio
Google intensifie son développement de Gemini avec une mise à jour récente de sa technologie audio. Cette semaine, l’entreprise a lancé une version améliorée de Gemini 2.5 Flash Native Audio, qui promet des conversations plus fluides, une gestion des instructions améliorée et la possibilité de traduction en direct pour un plus grand nombre d’utilisateurs et produits.
Des interactions vocales en temps réel
La nouvelle version de Gemini 2.5 Flash Native Audio est spécifiquement conçue pour les interactions vocales en temps réel, particulièrement adaptée aux agents d’IA capables de répondre instantanément. Les développeurs peuvent déjà accéder à cette mise à jour via Google AI Studio et Vertex AI.
Elle sera également intégrée dans divers produits consommateurs, dont Gemini Live et Search Live, permettant aux utilisateurs d’interagir avec l’IA de Google de manière plus naturelle.
Conversations plus naturelles et engagées
Selon les informations fournies par Google, cette mise à jour renforce la capacité de Gemini à gérer des discussions complexes et prolongées. Le modèle est désormais capable de mémoriser le contexte des échanges précédents, de suivre des instructions détaillées avec précision, et de fournir des informations en temps réel sans perturber le discours.
Trois améliorations majeures ont été mises en avant :
- Appels de fonction plus fiables pendant les conversations
- Suivi des instructions avec un taux d’adhésion de 90%
- Mémoire multi-tours améliorée pour des échanges plus connectés et fluides
Ces innovations ont pour but de favoriser le bon fonctionnement des agents vocaux en direct, y compris des bots pour le service client et des assistants en temps réel.
Traduction en direct intégrée aux écouteurs
Parallèlement à l’amélioration audio, Google présente également une fonctionnalité de traduction vocale en direct grâce à Gemini. Cette option permet une traduction instantanée via des écouteurs, tout en préservant le ton, le rythme et la tonalité de l’orateur.
La fonctionnalité en version bêta sera lancée dans l’application Google Translate, d’abord pour les dispositifs Android aux États-Unis, au Mexique et en Inde, avec un soutien pour iOS et d’autres régions prévu ultérieurement. Le système prend en charge plus de 70 langues et peut détecter automatiquement et alterner entre elles pendant les conversations bidirectionnelles, même dans des environnements bruyants.
Avec l’augmentation de l’utilisation de ces nouvelles fonctionnalités audio, Google s’engage à les améliorer continuelle, promettant de « continuer à faire évoluer cette expérience ». L’entreprise a également indiqué que cette expansion touchera « d’autres produits Google, y compris l’API Gemini, en 2026 ».
À noter : Google a démenti les rumeurs concernant l’arrivée de publicités dans l’application Gemini en 2026.
FAQ
Quels types d’appareils supporteront cette nouvelle fonctionnalité ?
La nouvelle fonctionnalité de traduction vocale en direct sera disponible sur les appareils Android, avec un déploiement prévu pour iOS et d’autres plateformes.
Quelles langues sont prises en charge par la traduction en direct ?
La fonctionnalité supporte plus de 70 langues, assurant ainsi une large accessibilité pour les utilisateurs.
Quand cette mise à jour sera-t-elle disponible pour tous les utilisateurs ?
La mise à jour sera progressivement intégrée à divers produits et devrait être pleinement accessible avant 2026.
Y aura-t-il de nouveaux produits liés à Gemini dans le futur ?
Oui, Google prévoit d’élargir l’intégration de Gemini dans d’autres produits, notamment par le biais de son API.
Comment Google assure-t-il la confidentialité des utilisateurs lors de l’utilisation de ces fonctionnalités ?
Google a des protocoles en place pour protéger les données des utilisateurs, bien qu’il soit recommandé de consulter leur politique de confidentialité pour plus de détails.
