Image: The Neuron
En savoir plus
Une nouvelle approche pour l’IA
Les modèles d’intelligence artificielle que vous avez utilisés jusqu’à présent fonctionnent tous de la même manière : ils génèrent un mot à la fois de gauche à droite, comme une machine à écrire. Si le modèle s’égare au début, tant pis, il continue à écrire.
Mais Inception Labs vient tout juste de lancer Mercury 2, qui adopte une toute autre méthode.
Un fonctionnement innovant
- Au lieu de deviner les mots un par un, Mercury 2 commence par une esquisse globale de la réponse.
- Ensuite, il peaufine tout simultanément, semblable à un éditeur qui révisen un document complet.
- Le terme technique pour ce type de modèle est un “diffusion LLM” (dLLM), qui repose sur la même approche que les générateurs d’images AI comme Midjourney, mais appliquée au texte et au raisonnement.
Vitesse impressionnante
Laissez-nous vous dire, la vitesse est réellement surprenante. Des tests indépendants réalisés par Artificial Analysis ont mesuré Mercury 2 à 1 196 tokens par seconde, soit plus de trois fois plus rapide que le modèle suivant dans sa classe de prix. C’est un atout majeur si vous avez besoin de rapidité. À titre de comparaison, le modèle Claude 4.5 Haiku atteint environ 89 tokens/sec et GPT-5 Mini environ 73.
Autres caractéristiques significatives
Voici d’autres aspects à prendre en compte :
- Coûte 0,25 $ par million de tokens d’entrée et 0,75 $ par million de tokens de sortie (une sortie moins coûteuse que GPT-5 Mini).
- Se classe 18ème sur 134 modèles selon l’indice d’intelligence d’Artificial Analysis, avec des atouts en codage agentique et en suivi des instructions.
- Prend en charge l’utilisation d’outils, 128K de contexte, des sorties structurées et s’intègre facilement à n’importe quelle pile compatible OpenAI sans avoir besoin de réécritures.
Pour être clair, Mercury 2 ne cherche pas à surpasser des géants tels que GPT-5.2 ou Claude Opus. Son objectif est d’optimiser la vitesse de production, plutôt que de rivaliser pour être en tête des classements.
Pourquoi la rapide amélioration est-elle essentielle ?
La rapidité de 10x revêt de l’importance car l’IA va au-delà des simples chatbots. Elle englobe des boucles d’agents où une tâche en enchaîne de nombreuses autres appels d’IA.
- Andrej Karpathy, ancien chercheur chez OpenAI, a souligné ce point récemment lorsque qu’il a décrit la nouvelle couche d’IA “Claw”.
- Des plateformes d’agents locaux comme OpenClaw et NanoClaw orchestrent la planification, les appels d’outils et les flux de travail persistants sur votre propre machine.
- Karpathy les a qualifiés de “valet numérique personnel”. Nous préférons cependant le terme “entité numérique non humaine qui fonctionne 24/7 pour vous”.
Dans ces boucles d’agents, la latence s’accumule à chaque étape. Un modèle qui est 10x plus rapide ne se contente pas d’économiser du temps ; il modifie également ce que vous pouvez réaliser. Cela permet d’avoir des assistants vocaux fluides, des agents de codage qui suivent votre rythme de pensée et des automatisations en arrière-plan qui s’achèvent avant même que vous n’ayez oublié de les lancer.
La grande question
Si la diffusion permet de créer de petits modèles si rapides sans compromettre le raisonnement, les grands laboratoires commenceront-ils à développer les leurs ? Nous savons que Google en possède déjà un… Attendez-vous à plus d’expérimentations prochainement. Passer à un diffusion LLM augmente considérablement le nombre de tokens que vous pouvez gérer par GPU. Tous les éléments incitent à le faire. Pourquoi ne pas le faire ?
Consultez l’analyse des coûts de Corey pour l’utilisation de Mercury 2 dans votre configuration OpenClaw, plongez-vous dans notre réflexion sur la combinaison de la diffusion avec un modèle basé sur l’énergie, ou essayez Mercury 2 par vous-même.
Note de la rédaction : Ce contenu a été initialement publié dans la newsletter de notre publication sœur, The Neuron. Pour lire plus d’articles de The Neuron, abonnez-vous à sa newsletter ici.
Grant Harvey est le rédacteur quotidien de **The Neuron**, une newsletter AI d’ADGO.ca destinée aux non-techniciens. Il consacre ses journées à analyser des outils d’IA et l’industrie dans son ensemble, puis à les expliquer dans un langage accessible à tous.
FAQ
Qu’est-ce qu’un “diffusion LLM” ?
Un “diffusion LLM” est un modèle d’IA qui génère d’abord une esquisse complète avant de peaufiner le contenu, permettant ainsi une production plus rapide et cohérente.
Comment Mercury 2 se compare-t-il à d’autres modèles ?
Mercury 2 est globalement plus rapide et moins cher que ses concurrents tout en maintenant une qualité de raisonnement et de résultats.
Peut-on intégrer Mercury 2 à des projets existants ?
Oui, Mercury 2 peut facilement s’intégrer aux configurations OpenAI existantes sans nécessiter de révisions majeures.
Y a-t-il des applications concrètes pour Mercury 2 ?
Mercury 2 peut être utilisé dans des assistants vocaux, des outils de codage et des automatisations, offrant des performances optimisées pour une variété de tâches.
Pourquoi la rapidité est-elle cruciale dans le développement de l’IA ?
La rapidité permet de réaliser des tâches complexes de manière plus efficace, facilitant ainsi des boucles d’agents où plusieurs appels d’IA doivent s’enchaîner rapidement.
