Claude Sonnet 5 : le modèle le plus agentique d'Anthropic, et pourquoi il divise
Le 30 juin 2026, Anthropic a publié Claude Sonnet 5, successeur de Sonnet 4.6, présenté comme le modèle Sonnet le plus « agentique » jamais produit : planification, usage d'outils, autonomie sur des tâches longues. Trois jours plus tard, l'accueil est tout sauf univoque. Les mêmes réseaux qui saluent « d'énormes progrès en codage agentique » relaient un post à 151 likes affirmant que c'est « probablement la pire sortie d'Anthropic ». Pour qui suit la trajectoire de l'IA en ingénierie, cette polarisation est le signal le plus intéressant de la sortie. Elle dit quelque chose de la maturité du marché, et de la façon dont une DSI devrait désormais choisir un modèle.
Ce qu'est Claude Sonnet 5
Claude Sonnet 5 est le modèle de milieu de gamme d'Anthropic, positionné entre l'efficacité de la classe Haiku et la puissance de frontière de la classe Opus. Sa promesse tient en un mot : agenticité. Là où les générations précédentes excellaient surtout en conversation et en génération de texte, Sonnet 5 est optimisé pour ce que le codage agentique exige : enchaîner des dizaines d'étapes sur un dépôt réel, appeler les bons outils au bon moment, planifier une tranche de travail et la mener de bout en bout sans perdre le fil.
Sonnet est, dans la gamme d'Anthropic, le modèle du quotidien : celui qu'on branche par défaut dans un agent, celui dont le rapport coût/performance décide de l'économie d'un projet. Faire de ce modèle-là le plus agentique de la maison, c'est parier que la valeur se joue désormais sur la capacité à terminer un travail utile à un coût soutenable, davantage que sur le pic de capacité brute. La bascule se confirme : du copilote qui complète une ligne vers l'agent qui livre une fonctionnalité.
Améliorations officielles face à Sonnet 4.6
La System Card publiée par Anthropic met en avant des gains en codage, raisonnement et usage d'outils. Voici les chiffres officiels, à lire avec la prudence d'usage : ce sont des mesures constructeur, utiles pour situer un ordre de grandeur, jamais pour trancher un classement définitif.
| Benchmark | Claude Sonnet 5 | Claude Sonnet 4.6 |
|---|---|---|
| Terminal-Bench 2.1 | 80,4 % | 67 % |
| CursorBench | 61,2 % | 49 % |
| USAMO 2026 (raisonnement mathématique) | 79,5 % | 55 % |
Ces chiffres situent le saut par rapport à la génération précédente : réel et large, en particulier sur les tâches agentiques et de terminal. Terminal-Bench, qui mesure la capacité à mener une tâche dans un environnement d'exécution (pas seulement à produire du code plausible), passe de 67 à 80,4 %. Le bond sur USAMO 2026 (de 55 à 79,5 %) traduit un gain de raisonnement structuré qui déborde le seul codage. Pour une équipe qui automatise des tranches de travail réelles, ce sont les axes qui comptent le plus : la probabilité qu'un agent aille au bout de sa mission.
Le trade-off assumé : cyber en retrait, refus en hausse
Toute montée en agenticité a un prix, et Anthropic ne le cache pas. La System Card documente deux compromis explicites. Le premier est un bridage volontaire des capacités cyber-offensives : sur ce terrain sensible, Sonnet 5 est moins capable que ce qu'il pourrait être, au nom de la sûreté. Le second est un effet de bord de cette prudence renforcée : davantage de refus abusifs (over-refusals) sur certaines requêtes légitimes, le modèle préférant décliner plutôt que risquer un usage nuisible.
Côté défensif, un modèle moins armé pour l'offensive cyber est plutôt une bonne nouvelle pour une DSI : une surface d'abus en moins, un sujet que nous traitons dans notre analyse de la sécurité du codage agentique. Mais l'inflation des refus est un irritant concret pour les praticiens : un modèle qui hésite, réclame des justifications ou fait la leçon sur une demande légitime casse le flux de travail et érode la confiance. C'est l'un des points sur lesquels la réception se polarise.
Disponibilité et prix
Claude Sonnet 5 est disponible dès son lancement via l'API et l'écosystème Claude. Son tarif suit une logique d'introduction : une grille promotionnelle pendant les deux premiers mois, puis un retour à un prix cible plus élevé.
| Période | Entrée (par M de tokens) | Sortie (par M de tokens) |
|---|---|---|
| Jusqu'au 31 août 2026 (lancement) | 2 $ | 10 $ |
| À partir du 1er septembre 2026 | 3 $ | 15 $ |
Ce positionnement tarifaire est au cœur du débat. À 2/10 $, Sonnet 5 s'affiche comme un excellent rapport qualité/prix pour du codage et des agents. Mais deux ombres planent. D'abord, la hausse programmée à 3/15 $ change l'équation d'ici la rentrée. Ensuite, un modèle agentique qui « réfléchit » davantage consomme plus de tokens par tâche : à l'usage, la facture dépend autant de la verbosité du modèle que de son tarif unitaire. Nous détaillons cette mécanique dans notre analyse du coût réel de l'agentic coding : le prix par token est un leurre si le nombre de tokens explose.
Réception : une communauté divisée
Passé les benchmarks, c'est le retour d'usage qui a marqué les premiers jours, et il est polarisé comme rarement. D'un côté, des praticiens saluent un vrai bond agentique et un rapport qualité/prix convaincant. De l'autre, un courant critique nourri reproche au modèle sa consommation de tokens, sa lenteur sur les petites tâches, et une personnalité jugée trop directive.
Côté positif, plusieurs développeurs décrivent une nette montée en gamme sur les workflows agentiques. L'un résume : « Claude Sonnet 5 apporte d'énormes améliorations au codage agentique et aux workflows. » Un autre, adepte de la comparaison entre modèles, note que Sonnet 5 est « devenu le modèle par défaut… il a comblé l'essentiel de l'écart avec Opus 4.8 sur la qualité d'écriture en moins de 48 heures ». La maturité conversationnelle revient souvent : « La conversation avec Claude est tellement mature, surtout avec Sonnet 5. » Et le triptyque « meilleur en code, moins cher que le précédent, gère de plus grosses tâches » cristallise l'argument des convaincus.
Côté critique, le ton est vif. Un post très relayé tranche : « Sonnet 5 est probablement la pire sortie d'Anthropic. » Un autre, en majuscules, assène : « SONNET 5 A FLOPPÉ : PIRE QU'OPUS ET PLUS CHER », avec une comparaison défavorable à un concurrent chinois cinq fois moins cher. D'autres déplorent « le pire des deux mondes — cher et vraiment mauvais », ou rangent la sortie parmi « les plus décevantes » d'Anthropic. Les fils Reddit dédiés, du thread d'annonce sur r/ClaudeAI à un thread au titre sans équivoque (« Sonnet 5.0, un nouveau désastre »), reflètent la même fracture.
Un dernier retour vient d'un test technique, pas d'une réaction à chaud : CodeRabbit, spécialisé dans la revue de code assistée, décrit des commentaires de revue « plus propres » mais un modèle qui attraperait moins de bugs qu'attendu. Un gain en lisibilité, une perte en couverture : le trade-off, encore.
Synthèse objective : un modèle spécialisé, pas universel
Passé l'émotion des premiers jours, les retours croisés dessinent une image cohérente : un progrès réel et ciblé, avec des compromis assumés, loin du désastre annoncé par les détracteurs comme de la révolution espérée par les fans.
| Critère | Points forts | Compromis | Consensus |
|---|---|---|---|
| Codage & agentique | Gros progrès vs 4.6, proche d'Opus sur tâches longues | En deçà d'Opus sur la frontière | Positif clair |
| Revue de code | Commentaires plus propres | Attrape moins de bugs | Trade-off |
| Prix & efficacité | Très bon tarif de lancement | Plus de tokens, lenteur sur petites tâches | Mitigé |
| Personnalité | Plus « honnête » pour certains | Leçons, refus abusifs | Très subjectif |
| Global | Upgrade utile pour l'agentique | Pas un bond révolutionnaire | Amélioration incrémentale |
Claude Sonnet 5 est un instrument spécialisé, pas un modèle universel. Il excelle là où on l'attend : les workflows agentiques et le codage complexe long-horizon, à un coût de lancement agressif. Il déçoit quand on lui demande d'être autre chose : le meilleur sur la frontière (c'est le rôle d'Opus), le plus rapide sur une micro-tâche (il « sur-réfléchit »), ou le plus permissif. La réception se polarise parce qu'une partie de la communauté juge un outil de précision à l'aune d'attentes généralistes.
Notre lecture : la valeur s'est déplacée du modèle vers le choix
Cette polarisation signale un marché qui mûrit. Il y a deux ans, on choisissait « le meilleur modèle » et l'on s'y tenait. Aujourd'hui, la question est devenue : « quel modèle pour quelle tâche, à quel coût, avec quelle réversibilité ? ». Un modèle Sonnet le plus agentique de sa maison, un Opus qui tient la frontière, un open-weights comme GLM-5.2 qui talonne les fermés à une fraction du prix, un Claude Fable 5 pour d'autres usages : une DSI compose désormais un portefeuille d'instruments.
Dans ce monde-là, la performance d'un modèle donné compte moins que la discipline avec laquelle on l'emploie. Le débat sur la consommation de tokens de Sonnet 5 le montre : à modèle égal, c'est le harnais (le contexte fourni, les outils exposés, les garde-fous, la découpe des tâches) qui décide si l'agent est rentable ou dispendieux. L'ingénierie du harnais part de ce constat : la valeur s'est déplacée du modèle vers ce qu'on en fait. Un Sonnet 5 mal harnaché coûtera cher et frustrera ; bien harnaché, il livrera.
L'enseignement pour une DSI : concevez votre stack pour que le modèle soit un choix réversible. Quand chaque génération apporte un instrument spécialisé de plus, verrouiller son architecture sur un fournisseur ou un modèle unique devient une décision, non une fatalité. Une grille de souveraineté agentique et une architecture multi-LLM qui ne mise jamais sur un seul cheval formalisent ce choix. Sonnet 5 ajoute une pièce à un jeu qui récompense l'agilité du choix plus que la fidélité au leaderboard. Premier verdict le 1er septembre : au tarif plein de 3/15 $, son rapport qualité/prix devra tenir sans la promotion.
Sources
- Anthropic, Claude Sonnet 5 (annonce officielle, positionnement, prix) — anthropic.com, 30 juin 2026.
- Anthropic, Claude Sonnet 5 — System Card (benchmarks Terminal-Bench 2.1, CursorBench, USAMO 2026 ; trade-offs cyber et over-refusals) — anthropic.com, juin 2026.
- Anthropic, What's new — Sonnet 5 (documentation technique) — platform.claude.com, juin 2026.
- CodeRabbit, Claude Sonnet 5 review (tests réels de codage et de revue de code) — coderabbit.ai, juillet 2026.
- Réactions publiques positives (X) : @pigrichh, @FitimBozar, @ProgrammingWthV, @ShreyasNalle, 3 juillet 2026. [à vérifier]
- Réactions publiques critiques (X) : @haider1, @JulianGoldieSEO, @Alex_FF, @depak_7, 2-3 juillet 2026. [à vérifier]
- Discussions Reddit : thread d'annonce r/ClaudeAI et thread critique r/claude, juillet 2026.
Articles similaires
GLM-5.2 : le modèle open-weights de Z.ai qui défie les modèles fermés pour agentique coding !
Annoncé mi-juin 2026, GLM-5.2 de Z.ai (ex-Zhipu AI) est un modèle open-weights — MoE, 744 milliards de paramètres, contexte 1M, licence MIT — optimisé pour le codage agentique long-horizon. Specs, benchmarks constructeur, prix, et les réactions d'experts comme Jeremy Howard ou Mat Velloso.
Claude Fable 5 : le premier modèle Mythos-class d'Anthropic disponible pour tous
Claude Fable 5, premier modèle Mythos-class d'Anthropic (9 juin 2026) : specs, benchmarks constructeur, sécurité, fallback Opus 4.8 et avis d'experts.
L'agentic coding ne coûte pas cher — jusqu'au jour où la facture atterrit sur le bureau du CFO
Combien coûte vraiment l'agentic coding ? Fin des assistants bon marché, ROI, et passage « de l'adoption à l'allocation ».
Harness Engineering : le modèle compte moins que le harnais
Même modèle, 58% vs 81,8% de réussite. La variable décisive n'est pas l'IA — c'est le système qui l'entoure. Bienvenue dans l'ère du harness engineering.