Lancement de Qwen 3.5-Omni : Le Modèle d'IA Multimodal le Plus Avancé d'Alibaba.

Le contenu et les recommandations de produits d’ADGO.ca sont indépendants sur le plan éditorial. Nous pouvons générer des revenus lorsque vous cliquez sur des liens vers nos partenaires.
En savoir plus

Sommaire

Toggle

La nouvelle avancée d’Alibaba avec Qwen3.5-Omni

Alibaba a récemment lancé Qwen3.5-Omni, son tout dernier modèle au sein de la famille Qwen.

Une technologie puissante

Cette nouvelle version, disponible cette semaine, a la capacité de traiter texte, images, audio, et vidéo en même temps, et fournit des réponses adaptées à chaque type de contenu. Ce modèle est qualifié d’« omnimodal », ce qui signifie qu’il ne nécessite pas plusieurs systèmes d’IA pour gérer simultanément un appel vidéo, un document, un message vocal et une photo. Tout cela peut être fait ensemble, en une seule action.

Différents formats pour différentes utilisations

Le Qwen3.5-Omni se décline en trois tailles : Plus, Flash, et Light, pour s’ajuster à différents besoins et budgets informatiques. La version Plus, étant le modèle phare, offre un contexte pouvant atteindre 256 000 tokens, capacité suffisante pour traiter plus de dix heures d’audio ou plus de 400 secondes de vidéo en 720p à un image par seconde.

A lire : Une Révolution Nécessaire : Repenser Fondamentalement les Modèles d'IA à Chaque Mise à Jour.

Ce modèle a été pré-entrainé avec plus de 100 millions d’heures de données audiovisuelles, ce qui constitue une approche multimodale native, au lieu d’un modèle textuel auquel on a ajouté des éléments audio par la suite.

Les performances remarquables

Des résultats impressionnants

Alibaba avance des chiffres audacieux qui soutiennent ses promesses. Le modèle Plus aurait déjà établi de nouveaux records de performance sur 215 benchmarks audio et audiovisuels. Ceux-ci incluent tout, depuis la compréhension audio générale jusqu’aux tâches de traduction impliquant 156 combinaisons de langues.

Des comparaisons avec Gemini

Sur le benchmark de compréhension audio MMAU, le Qwen3.5-Omni-Plus a obtenu un score de 82.2, surpassant ainsi le Gemini 3.1 Pro qui a rapporté 81.1. La différence est encore plus notable dans la compréhension musicale, où Qwen a marqué 72.4 contre 59.6 pour Gemini sur le benchmark RUL-MuchoMusic.

Dans le domaine des dialogues vocaux, le modèle se distingue également avec un score de 93.1 sur VoiceBench, contrastant avec le score de 88.9 de Gemini.

Des avancées en génération de discours

Un autre point fort est la génération de discours. Lors d’un test particulièrement difficile, connu sous le nom de « seed-hard », qui évalue la capacité d’un modèle à lire naturellement sous pression, le Qwen3.5-Omni-Plus a affiché un taux d’erreur de seulement 6.24, se plaçant au-dessus de GPT-Audio (8.19), Minimax (8.62), et ElevenLabs (27.70). Pour le clonage vocal dans 20 langues, le modèle a atteint un taux d’erreur de 1.87 et un score de similarité de 0.79, des chiffres en tête de liste.

Cependant, il convient de noter que Gemini 3.1 Pro conserve certains avantages dans certaines épreuves audiovisuelles, notamment sur des benchmarks tels que WorldSense et VideoMME avec audio.

A lire : Homme Porte Plainte Contre la Police pour Scannage de Son Visage sans Autorisation

Une montée en puissance linguistique

Une des évolutions les plus marquantes par rapport à son prédécesseur, le Qwen3-Omni, est l’amélioration linguistique.

Plus de langues et de dialectes

Le modèle précédent gérait onze langues et huit dialectes chinois pour la reconnaissance vocale. Le Qwen3.5-Omni, en revanche, prend en charge 74 langues et 39 dialectes chinois, totalisant ainsi 113 langues et dialectes au total. La sortie vocale couvre 36 langues, incluant un éventail de 50 locuteurs avec des options définies par les utilisateurs, ainsi que des variantes dialectales et multilingues.

Une fonctionnalité surprenante : le « codage des vibrations audio-visuelles »

Un des aspects notables du Qwen3.5-Omni n’est pas seulement sa rapidité, mais également une nouvelle compétence que les développeurs n’avaient même pas spécifiquement apprises. L’équipe d’Alibaba a découvert une « capacité émergente » : le modèle peut écrire du code fonctionnel simplement en regardant une vidéo et en écoutant des instructions orales. Ce phénomène a été désigné comme le « codage des vibrations audio-visuelles ».

Dans des tests de la vie réelle, il a réussi à transformer un croquis approximatif présenté à une caméra en une page web React fonctionnelle. Pendant que l’utilisateur lui demandait divers ajustements, comme des boutons plus grands ou un agencement différent, l’IA modifiait le code en temps réel.

Une utilisation pratique à découvrir

Selon les déclarations de Qwen, cette fonctionnalité permet d’effectuer directement du codage à partir d’instructions audio-visuelles, accessibles via l’API Hors Ligne.

Les coulisses de la technologie

Une architecture unique

Pour jongler avec le texte, les images, l’audio, et la vidéo de façon simultanée, Alibaba a mis en place un mécanisme original appelé « Thinker-Talker ». Le Thinker est responsable du traitement de l’information reçue, tandis que le Talker s’occupe de la manière dont l’IA communique avec l’utilisateur.

A lire : Un Clone Numérique de Tom Cruise dans la Scène de Sexe d'« American Psycho »

Résolution des problèmes courants

L’une des difficultés majeures de l’IA vocale réside dans le « bégaiement » ou les erreurs lors de la lecture de nombres et de textes complexes. Alibaba affirme avoir résolu ce défi grâce à une technologie appelée ARIA (Alignement de Taux Adaptatif Intercalé). Cette technologie synchronise les unités de texte et de voix pour éviter que l’IA ne se mélange les pinceaux durant une conversation en direct.

En outre, le modèle prend également en charge une interruption sémantique, ce qui signifie que si l’utilisateur tousse ou dit « euh », l’IA continue de parler. En revanche, si une nouvelle phrase est réellement commencée pour corriger l’IA, le modèle s’arrête et écoute.

Pour en savoir plus sur les innovations de l’IA d’Alibaba, consultez notre article sur le départ inattendu du responsable technique de Qwen.

FAQ

Quelle est la différence entre le Qwen3.5-Omni et les versions précédentes ?

Le Qwen3.5-Omni offre une prise en charge de 74 langues et 39 dialectes chinois, contre 11 langues et 8 dialectes pour son prédécesseur.

Comment fonctionne le codage audio-visuel ?

Le codage audio-visuel permet au modèle de générer du code fonctionnel simplement en utilisant des instructions orales et des vidéos comme guides.

Quels types de contenus peuvent être traités simultanément par le Qwen3.5-Omni ?

Le modèle peut traiter du texte, des images, de l’audio et de la vidéo en même temps, ce qui en fait un outil puissant pour différents usages.

Qu’est-ce que la technologie ARIA ?

ARIA est une technologie développée par Alibaba pour améliorer la synchronisation entre le texte et la voix, ce qui réduit les erreurs lors des interactions vocales.

Comment les performances du Qwen3.5-Omni se comparent-elles à celles de ses concurrents ?

Le modèle a obtenu des scores supérieurs à ceux de la concurrence dans plusieurs benchmarks, notamment en compréhension audio et en génération de discours, mais il reste des domaines où d’autres modèles, comme le Gemini 3.1 Pro, prennent l’avantage.