Intelligence Artificielle

Analyse du Sonnet 4.6 : Le Nouveau Modèle Intermédiaire d’Anthropic Est Arrivé.

Analyse du Sonnet 4.6 : Le Nouveau Modèle Intermédiaire d'Anthropic Est Arrivé.

Claude Sonnet 4.6 a été lancé aujourd’hui, et la conclusion principale n’est pas simplement qu’il est “meilleur”. En effet, parmi les développeurs ayant pu tester le modèle en avant-première, 59 % ont préféré Claude Sonnet à l’Opus d’Anthropic, malgré que ce dernier coûte plus cher. En d’autres termes, une version moins coûteuse a surpassé le modèle haut de gamme.

En résumé

Pour ceux qui n’ont que quelques minutes à accorder, voici l’essentiel à retenir. Sonnet 4.6 constitue une mise à jour complète touchant la programmation, l’utilisation de l’ordinateur, le raisonnement sur de longues durées, la planification d’agents et le design. Voici ce qui est important dans votre quotidien :

  • Utilisation de l’ordinateur comme un humain

    • Cette fonctionnalité a été introduite par Anthropic en octobre 2024 sous une dénomination “expérimentale”.
    • 16 mois plus tard, les premiers utilisateurs rapportent une performance équivalente à celle d’un humain pour des tâches telles que la gestion de tableaux complexes et le remplissage de formulaires web en plusieurs étapes.
    • Le référentiel OSWorld, qui évalue les tâches informatiques concrètes sur un ordinateur simulé, montre des améliorations constantes à chaque version de Sonnet.
  • Fenêtre de contexte de 1 million de tokens (en bêta)

    • Cela permet de traiter une base de code complète, un ensemble de contrats juridiques, ou de nombreux articles de recherche en une seule requête.
    • Contrairement à certains modèles qui perdent le fil dans de longs documents, Sonnet 4.6 maintient sa capacité de raisonnement sur l’intégralité du texte.
  • Satisfaction des utilisateurs de Claude Code

    • Les testeurs préfèrent Sonnet 70 % du temps par rapport à la version précédente, notant moins d’hallucinations, moins de sur-ingénierie, et une meilleure exécution des tâches multi-étapes.
    • L’un des principaux reproches des développeurs (l’affirmation erronée du modèle d’avoir terminé une tâche) est désormais beaucoup moins fréquent.
  • Connecteurs MCP pour Excel

    • Claude dans Excel se connecte désormais à des services comme S&P Global, PitchBook et Moody’s, permettant d’intégrer des données externes directement dans vos feuilles de calcul. Cela représente un avantage considérable pour ceux travaillant dans le secteur financier.
A lire :  Des chatbots soutenus par Google se mettent à dérailler de façon incompréhensible sur les objets sexuels.

Un détail intéressant a retenu notre attention : lors d’une compétition d’affaires simulée nommée Vending-Bench Arena, Sonnet 4.6 a élaboré sa propre stratégie. Il a investi massivement dans sa capacité pendant 10 mois, puis a rapidement pivoter vers une approche de rentabilité, surpassant ainsi la concurrence sans directive externe.

Détails supplémentaires

Les prix restent inchangés par rapport à Sonnet 4.5 (3 $/15 $ par million de tokens), et il est déjà configuré comme modèle par défaut pour les utilisateurs gratuits et Pro sur claude.ai. Si vous avez payé pour Opus pour garantir des résultats fiables, il pourrait être judicieux de vérifier si Sonnet 4.6 peut vous fournir 90 % des performances à un coût réduit.

Anthony’s Sonnet 4.6 : Un modèle d’IA conçu pour l’ère des agents

Dans le monde de l’intelligence artificielle, on remarque une tendance récurrente : une entreprise lance son modèle le plus performant et le plus coûteux, tout le monde le trouve impressionnant, puis quelques mois plus tard, elle propose un modèle plus rapide et moins cher avec une intelligence similaire, lequel devient véritablement impactant pour le travail au quotidien.

C’est ce que fait Anthropic avec Claude Sonnet 4.6, qui a été présenté comme le nouveau modèle par défaut pour les abonnements gratuits et Pro sur claude.ai. Sur le papier, il s’agit “juste” d’un Sonnet, un modèle intermédiaire, inférieur au modèle phare Opus. Cependant, lors de notre stream en direct, il a semblé que Sonnet 4.6, appliqué aux tâches d’agents, égalait ou surpassait Opus sur des tâches essentielles pour les utilisateurs quotidiens : utilisation informatique, tâches de bureau, analyse financière, automatisation de navigateurs et planification stratégique.

A lire :  Lorsque l'IA s'entraîne sur des données générées par l'IA, des phénomènes surprenants émergent.

Le tarif reste identique à Sonnet 4.5 : 3 $ par million de tokens d’entrées et 15 $ par million de tokens de sorties, ce qui représente un cinquième du prix d’Opus 4.6. Pour ceux qui souffrent de factures API élevées en exécutant des workflows agentiques, c’est plus qu’un simple rabais. C’est une différence majeure entre un “cool experiment” et un “outil commercial viable”.

Les performances en détail

Il est essentiel de cerner où Sonnet 4.6 excelle au détriment d’Opus. Les chiffres sont importants ici, car la déclaration “c’est essentiellement la même chose” est vraie pour certaines tâches mais trompeuse pour d’autres.

Comparaison des performances : où Sonnet 4.6 dépasse Opus

  • Utilisation de l’ordinateur (vérifié par OSWorld) : 72,5 % contre 72,7 %, quasiment à égalité.
  • Tâches de bureau réelles (GDPval-AA) : Sonnet 4.6 obtient un score ELO de 1633, un peu au-dessus d’Opus 4.6 à 1606.
  • Analyse financière (Finance Agent par Vals AI) : 63,3 % à performance maximale, surpassant Opus 4.6 (60,05 %) et GPT-5.2 (58,53 %).
  • Automatisation web (WebArena vérifié) : Sonnet 4.6 a dominé l’ensemble des tests, surpassant Opus parmi les systèmes à agent unique.
  • Recherche agentique (BrowseComp) : 74,72 %, supérieur à Opus 4.5, atteignant même 82,62 % dans une configuration multi-agent.
  • Service client (τ²-bench) : 97,9 % en Télécom et 91,7 % en Retail, résultats presque parfaits.

Domaines où Opus 4.6 est encore en avance

  • Programmation pure (SWE-bench vérifié) : 79,6 % contre 80,8 %.
  • Tâches terminales (Terminal-Bench 2.0) : Opus a un avantage clair ici avec 59,1 % contre 65,4 %.
  • Raisonnement profond (GPQA Diamond) : 89,9 % contre 91,3 %.

Pour les tâches liées au travail, telles que tableaux, présentations et recherches de données, Sonnet 4.6 est pratiquement interchangeable avec Opus. En revanche, pour des tâches plus techniques, comme le débuggage complexe ou le refactoring de code, Opus demeure supérieur.

A lire :  Les Avertissements de USA TODAY sur ses Articles Sportifs Automatisés Dépassent en Longueur les Articles eux-mêmes

Utilisation concrète par les développeurs

La réaction des développeurs, rapide et significative, a été remarquable. OpenClaw a mis à jour son application le jour même pour soutenir Sonnet 4.6. Les utilisateurs s’empressent de l’adopter comme modèle par défaut dans leurs workflows d’agents. La logique est simple : si la performance d’utilisation d’outils est à peu près comparable à Opus, mais que le coût ne représente qu’un cinquième, il est logique de choisir Sonnet pour presque tout, sauf les tâches de codage les plus complexes.

Les utilisateurs tels qu’Alex Finn ont suggéré d’utiliser Sonnet 4.6 comme votre modèle principal pour les tâches d’agents, et de conserver Opus uniquement pour des cas de planification ou d’implémentations ponctuelles de composants complexes.

Conclusion

Sonnet 4.6 représente un modèle où l’intelligence équivalente à Opus est désormais accessible à un prix abordable, conçu spécifiquement pour répondre aux exigences des agents qui réalisent réellement des tâches en votre nom. L’ère de l’IA comme un simple “chatbot” interrogeant des données fait place à celle où l’IA agit comme un collaborateur, utilisant votre ordinateur et traitant vos documents efficacement. Sonnet 4.6 rend cette transition économiquement viable pour tous.

FAQ

Qu’est-ce que Claude Sonnet 4.6?

Claude Sonnet 4.6 est le dernier modèle d’IA d’Anthropic, conçu pour effectuer diverses tâches avec des performances largement améliorées.

Quelle est la principale nouveauté de Sonnet 4.6?

Elle inclut une fenêtre de contexte de 1 million de tokens, permettant une gestion plus efficace des longues requêtes et des documents.

Pour qui est destiné Sonnet 4.6?

Il s’adresse principalement aux professionnels ayant besoin d’une aide dans des tâches d’analyse financière, de programmation ou d’utilisation d’outils, en offrant une alternative moins coûteuse à Opus.

Quelles sont les différences de coût entre Sonnet 4.6 et Opus?

Sonnet 4.6 coûte 3 $ par million de tokens pour les entrées et 15 $ pour les sorties, soit un cinquième du prix d’Opus.

Comment les développeurs réagissent-ils à Sonnet 4.6?

Ils sont globalement enthousiastes, de nombreux outils et frameworks intégrant rapidement Sonnet 4.6 pour tirer parti de ses nouvelles fonctionnalités.