En savoir plus
Lancement du nouveau modèle TTS Gemini 3.1 Flash
Google a récemment dévoilé Gemini 3.1 Flash TTS, un modèle innovant de synthèse vocale. Ce système a pour objectif d’améliorer la nature et l’expressivité des voix synthétiques, tout en rendant leur contrôle plus accessible.
Performances remarquables du modèle
Gemini 3.1 Flash TTS a déjà montré des résultats impressionnants selon des benchmarks industriels. D’après Artificial Analysis, il a atteint un score de 1,211 points Elo sur son classement de synthèse vocale, établi à l’aide de tests d’écoute à l’aveugle impliquant des milliers de comparaisons humaines. Grâce à ces résultats, il se positionne en seconde place au niveau mondial, juste derrière Inworld TTS 1.5 Max (1,215 points) et devant ElevenLabs Eleven v3 (1,179 points). Ce modèle a été classé dans le “quadrant le plus attractif”, en raison de son excellent rapport qualité-prix.
Fonctionnalités avancées
Une des innovations notables de Gemini 3.1 Flash TTS est le système de balises audio, qui permet aux utilisateurs de manipuler la manière dont le discours est restitué, simplement en ajoutant des instructions textuelles. Les développeurs peuvent insérer ces balises dans leurs scripts pour ajuster le ton, le rythme et l’expression en temps réel. Ce modèle supporte plus de 200 balises, offrant ainsi un contrôle que l’on ne retrouve pas souvent dans les systèmes TTS traditionnels. Cette méthode de suggestion en ligne permet aux utilisateurs de configurer le discours sans avoir besoin de connaissances approfondies en ingénierie audio, facilitant ainsi les expérimentations et les améliorations des expériences vocales.
Multilinguisme et accessibilité
Ce modèle propose une prise en charge de plus de 70 langues, y compris des variations d’accents régionaux. Parmi ces accents, on retrouve diverses versions de l’anglais, allant des styles américains aux variants britanniques tels que le RP et le Brixton, en plus d’un large éventail de langues internationales. Pour les utilisateurs de Google Workspace, l’intégration à Google Vids offre 30 options vocales conversationnelles à travers 24 langues, augmentant ainsi l’accessibilité et la localisation pour les créateurs de contenu et les entreprises.
Sécurité renforcée avec marquage
Pour répondre aux préoccupations concernant les médias générés par l’IA, tous les fichiers audio produits par Gemini 3.1 Flash TTS sont intégrés avec un marquage SynthID. D’après l’annonce de Google, « ce marquage imperceptible est directement incorporé dans la sortie audio, permettant une détection fiable du contenu généré par l’IA afin de prévenir la désinformation. » Bien que ce marquage ne soit pas audible, il peut être identifié pour vérifier si un extrait a été créé par une IA, contribuant ainsi à la lutte contre la désinformation.
Accès et intégration pour les développeurs
Gemini 3.1 Flash TTS est dès à présent accessible. Les développeurs peuvent l’essayer en avant-première via l’API Gemini et Google AI Studio. Les équipes d’entreprise peuvent le tester sur Vertex AI. Les utilisateurs de Workspace le retrouveront au sein de Google Vids.
À lire également : La poussée de Google en mars a élargi Gemini avec de nouveaux outils proactifs, une personnalisation approfondie et de nouvelles options pour les créateurs et développeurs.
FAQ
Qu’est-ce que Gemini 3.1 Flash TTS ?
Gemini 3.1 Flash TTS est un modèle de synthèse vocale développé par Google, conçu pour fournir des voix synthétiques plus naturelles et facilement contrôlables.
Quels types de balises audio sont disponibles ?
Le modèle propose plus de 200 balises audio qui permettent de modifier le ton, le rythme et l’expression de la voix en temps réel.
Comment le marquage SynthID fonctionne-t-il ?
Le marquage SynthID est un système intégré dans l’audio produit, qui aide à identifier si un clip a été généré par une IA, contribuant à la lutte contre la désinformation.
Est-ce que Gemini 3.1 Flash TTS est gratuit ?
Les informations sur le coût ou la gratuité ne sont pas spécifiées, mais les développeurs peuvent y accéder via des plateformes comme Google AI Studio.
Comment puis-je intégrer Gemini 3.1 Flash TTS dans mon projet ?
Les développeurs peuvent utiliser l’API Gemini pour intégrer le modèle dans leurs applications, en testant ses fonctionnalités au sein de Google AI Studio.
