Ornith-1.0 : quand le modèle apprend son propre harnais
Fin juin 2026. Sur le forum r/LocalLLaMA, un développeur raconte avoir généré un jeu 3D fonctionnel en trois prompts avec un modèle qui tourne sur sa propre machine, là où le Qwen qu'il utilisait la veille échouait. Son titre est sans détour : « Ornith 35B is great so far ».5 Le même jour, sur Hacker News, un autre testeur ouvre le même modèle en conversation simple, sans outils, lui pose une question basique, et le trouve pire qu'un Qwen deux fois plus petit, avec une « étonnante propension à halluciner ».4
Même modèle. Même semaine. Deux verdicts diamétralement opposés. Le réflexe serait d'y voir le bruit habituel qui entoure toute sortie de modèle : les uns enthousiastes, les autres déçus, la vérité quelque part au milieu. Ce serait passer à côté du signal. La ligne de partage entre les deux camps est une variable technique précise. D'un côté, ceux qui font tourner le modèle dans un harnais agentique outillé. De l'autre, ceux qui lui parlent nu. Et cette variable-là raconte, mieux que n'importe quel benchmark, où se joue désormais la performance d'une IA de code.
Ornith-1.0, publié fin juin 2026 par le laboratoire américain DeepReinforce sous licence MIT,1 est intéressant moins pour ce qu'il fait que pour ce qu'il démontre. Sa nouveauté tient à l'entraînement : le modèle apprend à fabriquer lui-même son propre échafaudage, donnant raison, presque à la lettre, à une thèse que l'ingénierie logicielle formule depuis un an.
Ce qu'Ornith-1.0 fait, et ce qu'il ne fait pas
Ornith-1.0 n'est pas un modèle « fondation » sorti de nulle part. C'est une famille de quatre variantes : un 9B Dense pour le edge, un 35B MoE taillé pour le matériel grand public, un 397B MoE « frontier-scale », et un 31B Dense annoncé dans le blog officiel mais dont les poids tardaient encore à apparaître sur Hugging Face, semant la confusion dans la communauté.1 Toutes sont post-entraînées sur des bases existantes : Qwen 3.5 et Gemma 4. Plusieurs utilisateurs relèvent d'ailleurs que le modèle s'identifie spontanément comme « Qwen 3.5 » et en hérite les réflexes.6
Ornith est un fine-tune, pas une rupture architecturale : c'est le cœur du débat. Les accusations de benchmaxxing (l'optimisation d'un modèle pour briller sur les jeux d'épreuves plus que dans la vie réelle) reviennent régulièrement dans les fils de discussion.6 Elles ne sont pas infondées. Mais elles ratent, elles aussi, ce qui rend l'objet remarquable.
L'innovation revendiquée se loge dans la méthode d'entraînement, pas dans les poids. DeepReinforce a entraîné Ornith par apprentissage par renforcement selon un principe qu'il nomme self-scaffolding (auto-échafaudage). Le modèle apprend deux choses en même temps : à résoudre la tâche de code, et à générer lui-même les scaffolds (cadres de raisonnement, workflows structurés, prompts d'orchestration) qui vont guider sa propre résolution.1 Au lieu de recevoir un harnais fabriqué par des humains, le modèle apprend à construire le sien. C'est cette optimisation conjointe, l'échafaudage et la solution, qui distingue Ornith de la longue file des post-trainings de Qwen.
Le harnais, cette variable qu'on croyait secondaire
Depuis un an, l'ingénierie des agents s'est dotée d'un vocabulaire précis autour d'une équation devenue centrale : Agent = Model + Harness. Un agent n'est pas un modèle ; c'est un modèle plus le système qui l'entoure : les guides qui l'orientent en amont (feedforward), les capteurs qui lui rendent compte du résultat de ses actions (feedback), les outils qu'il peut invoquer, la boucle d'exécution qui enchaîne tout cela. Cette discipline de conception du système autour du modèle porte un nom : le harness engineering. Sa thèse chiffrée : à modèle strictement égal, un bon harnais peut faire gagner vingt points de performance ou davantage.
Relisez maintenant les deux verdicts de notre introduction à la lumière de cette équation. Le développeur qui génère un jeu 3D en trois prompts utilise Ornith dans un harnais : un outil agentique de type Claude Code, avec ses guides, ses outils, sa boucle. Le testeur déçu, lui, parle au modèle nu, en chat, sans outillage. Ils ne testent pas le même système. Le premier mesure Model + Harness ; le second mesure Model tout court. Leurs résultats opposés sont la démonstration expérimentale de l'équation.
Les retours convergent. Sur Hacker News, les tâches réelles (ajout de fonctionnalités en C++ ou en Go, modifications front et back sur de grosses bases) sont jugées rapides, avec moins de doom-loops que Qwen 3.6.4 Simon Willison, dont les évaluations font autorité, rapporte des impressions initiales « très bonnes » en usage agentique avec harnais.3 Mais dès qu'on retire le harnais, les faiblesses héritées de la famille Qwen resurgissent : hallucinations d'appels d'outils, boucles improductives, suivi de consignes médiocre.4 Le modèle est le même. C'est l'enveloppe qui fait la différence.
Ce qu'Ornith ajoute à cette histoire, avec son self-scaffolding, c'est une torsion : il déplace une partie du harnais à l'intérieur du modèle. Là où l'ingénieur construisait le scaffold à la main, le modèle a appris à en produire un. Le harness engineering migre en partie du système externe vers les poids : la frontière bouge.
« Innovation ou benchmaxxing » : un faux binaire
La question qui agite la communauté (Ornith est-il une vraie innovation ou un artefact de benchmark ?) est mal posée. Elle suppose qu'il faut choisir. Les faits invitent plutôt à tenir les deux bouts.
Côté chiffres, DeepReinforce revendique pour le 397B un score de 77,5 sur Terminal-Bench 2.1 (contre 70,3 pour Claude Opus 4.7) et de 82,4 sur SWE-Bench Verified (contre 80,8).1 Le 9B afficherait 69,4 sur SWE-Bench Verified, très au-dessus de Qwen 3.5-9B (53,2) et dans le voisinage d'un modèle quatre fois plus gros. Ces nombres méritent la même prudence méthodique que ceux de GLM-5.2 quelques semaines plus tôt : ce sont des benchmarks constructeur, moyennés sur plusieurs runs à des réglages précis (température, contexte long, timeouts généreux). Ils situent un ordre de grandeur ; ils ne tranchent pas un classement. Un score n'est pas un déploiement.
Côté innovation, le self-scaffolding est salué, y compris par des observateurs prudents, comme une piste crédible pour réduire la dépendance aux wrappers fragiles et bricolés à la main.7 Les deux lectures coexistent sans se contredire : un modèle peut être à la fois optimisé pour les benchmarks et porteur d'une idée méthodologique féconde. Le fine-tune est incrémental ; la méthode d'entraînement, elle, ouvre une voie. Confondre les deux, c'est soit surestimer l'objet, soit passer à côté de l'idée.
Pour une direction technique, une seule leçon opérationnelle : un benchmark ne dit rien de ce que vaudra le modèle dans votre harnais, sur votre code. Le seul chiffre qui engage une décision est celui que vous mesurez vous-même, dans votre chaîne d'outils, sur vos tâches.
Le levier discret : MIT, local, hors API
Ornith mérite qu'une DSI s'y arrête pour une seconde raison, moins commentée, qui n'a rien à voir avec les scores. La licence est MIT, sans restriction géographique. Le 35B MoE tourne sur du matériel grand public ; le 9B tient sur un laptop.4 Concrètement : gratuit, privé, offline, zéro coût d'API.
Ce point rejoint un débat qui structure les arbitrages d'infrastructure IA en Europe : la souveraineté numérique. Un modèle à poids ouverts, déployable dans un environnement maîtrisé, sans appel à une API tierce, neutralise une partie des risques de transfert de données et échappe à la dépendance à un fournisseur unique. Pour des workflows de coding agents manipulant du code propriétaire, l'argument est loin d'être théorique. C'est exactement le type d'arbitrage que formalise la matrice de souveraineté agentique : où placer le curseur entre performance de pointe, maîtrise des données et coût, service par service.
La prudence reste de mise, et pour deux raisons distinctes. D'abord, ouvrir les poids ne dispense pas d'instruire la gouvernance : la provenance du modèle, la traçabilité de son entraînement et la sécurité de son exécution restent à évaluer. Ensuite, pour qui laisse un agent agir sur un dépôt, un modèle capable d'exécuter du code et d'appeler des outils élargit la surface d'attaque autant que la surface de productivité. Le déploiement local d'un agent de code obéit aux mêmes exigences de revue et d'identité que nous détaillons pour la sécurité du codage agentique. L'ouverture est un levier de souveraineté ; elle n'est pas un blanc-seing.
Cinq réflexes pour évaluer un modèle agentique
De ce cas concret se dégagent quelques principes d'action, transposables à la prochaine sortie de modèle : il y en aura une le mois prochain.
- Évaluer le système, pas le modèle. Tester un modèle agentique en chat nu revient à juger un pilote sans son cockpit. Mesurez toujours
Model + Harness, dans la chaîne d'outils que vous utiliserez réellement en production. - Traiter le harnais comme un actif d'ingénierie. Guides, outils, boucles de feedback : versionnés, testés, améliorés en continu. C'est là que se logent les vingt points de performance qu'aucun changement de modèle ne vous donnera gratuitement.
- Se défier des benchmarks constructeur. Ils fixent un ordre de grandeur, pas un classement. Croisez-les avec des évaluations tierces reproductibles, et surtout avec vos propres tâches.
- Intégrer l'ouverture dans l'arbitrage de souveraineté. Un modèle MIT déployable localement change l'équation coût/contrôle/données, sans dispenser d'une gouvernance de son exécution.
- Se méfier de la polarisation des premiers retours. Sur un modèle sorti depuis dix jours, l'enthousiasme et le rejet disent surtout la diversité des setups. Le verdict utile se construit sur la durée, pas sur le thread du jour.
Le point de vue SFEIR : la performance a changé d'adresse
Chez SFEIR, nous observons la même trajectoire chez nos clients que celle qu'Ornith illustre à l'échelle d'un modèle : la performance d'un agent de code a cessé de résider dans le modèle seul. Elle a migré vers le système qui l'entoure. C'est le sens de la progression que nous documentons, du prompt engineering au context engineering, puis au harness engineering : à chaque étape, on cesse d'attendre du modèle qu'il fasse tout, pour concevoir l'environnement qui le rend fiable.
Cette bascule a une conséquence stratégique que Didier Girard résume d'une formule volontairement provocatrice : « écrire du code est désormais un anti-pattern ». Ce qui devient l'objet du travail d'ingénierie, ce n'est plus la ligne produite à la main, ni même le choix du modèle : c'est la conception du harnais, du contexte, de la boucle. Ornith, en apprenant à générer ses propres scaffolds, ne fait qu'automatiser une couche de ce travail. Il ne le supprime pas : il en déplace la frontière, et rend d'autant plus décisive la maîtrise de ce qui reste au-dessus.
Une DSI qui l'aurait compris ne se demande pas, à chaque sortie de modèle, « faut-il migrer ? ». Elle se demande « mon harnais est-il assez bon pour tirer parti du meilleur modèle du moment, quel qu'il soit ? ». La première question dépend d'un laboratoire tiers ; la seconde dépend d'elle. C'est là, et non dans le tableau des benchmarks, que se construit un avantage durable.
Deux verdicts, un enseignement
Revenons à nos deux testeurs. L'un a produit un jeu 3D en trois prompts ; l'autre a récolté des hallucinations sur une question triviale. Ils n'avaient pas tort tous les deux à moitié : ils avaient raison chacun sur son système. Le modèle qu'ils opposent est identique au bit près. Ce qui les sépare, c'est le harnais.
Ornith-1.0 ne prouve pas que l'open-source a « rattrapé » les modèles fermés : la question est déjà datée, et un fine-tune de Qwen ne suffira pas à la trancher. Il prouve quelque chose de plus utile pour qui doit décider : que la performance du codage agentique s'est déplacée du modèle vers le système qui l'entoure, au point qu'un modèle a désormais intérêt à apprendre à construire ce système lui-même. Le meilleur modèle du monde reste médiocre dans un mauvais harnais. Un modèle correct devient redoutable dans un bon. Cette asymétrie est une bonne nouvelle pour les entreprises : le modèle, on l'achète ou on le télécharge ; le harnais, on le construit. Et ce qu'on construit soi-même, personne ne peut vous le retirer à la prochaine version.
Points clés
- Ornith-1.0 (DeepReinforce, MIT, fin juin 2026) est un fine-tune de Qwen 3.5 / Gemma 4 en quatre variantes (9B, 31B, 35B MoE, 397B MoE) : sa nouveauté est la méthode, pas les poids.1
- Son entraînement self-scaffolding apprend au modèle à générer ses propres scaffolds : une partie du harnais migre du système externe vers les poids.1
- Les verdicts opposés de la communauté (excellent avec harnais, médiocre en chat nu) confirment expérimentalement l'équation Agent = Model + Harness du harness engineering.45
- Les scores revendiqués (Terminal-Bench 77,5 ; SWE-Bench 82,4, au-dessus de Claude Opus 4.7) sont des benchmarks constructeur : un ordre de grandeur, pas un classement. Seule compte la mesure dans votre propre harnais.1
- La licence MIT, le déploiement local et le coût d'API nul en font un levier de souveraineté, sous réserve d'une gouvernance de l'exécution et d'une revue de sécurité de l'agent.
Sources
- DeepReinforce, Ornith-1.0 (blog officiel et model cards) — deep-reinforce.com · Hugging Face, juin 2026.
- MarkTechPost, DeepReinforce releases Ornith-1.0, an open-source coding model family that learns its own RL scaffolds — marktechpost.com, 25 juin 2026.
- Simon Willison, Ornith — simonwillison.net, 29 juin 2026.
- Discussion Hacker News (retours d'usage sur tâches réelles et en chat) — news.ycombinator.com, juin 2026.
- r/LocalLLaMA, Ornith 35B is great so far — reddit.com, juin 2026.
- r/opencodeCLI, discussion sceptique (« post-trained Qwen 3.5 and Gemma ») — reddit.com, juin 2026.
- IT-Connect, Ornith-1.0 : l'IA open source qui dépasse Claude Opus 4.7 — it-connect.fr, juin 2026.
Articles similaires
Claude Sonnet 5 : le modèle le plus agentique d'Anthropic, et pourquoi il divise
Sorti le 30 juin 2026, Claude Sonnet 5 est le modèle le plus agentique d'Anthropic : bonds nets en codage et tool use face à Sonnet 4.6, mais un accueil très polarisé. Benchmarks, prix, retours d'usage, et notre lecture : un instrument spécialisé, pas universel.
LLM à diffusion : et si l'IA devenait meilleure en relecture qu'en rédaction ?
En juin 2026, Google DeepMind publie DiffusionGemma, un LLM ouvert qui ne génère plus le texte mot à mot mais le raffine par passes successives. Sa promesse vise moins l'écriture que la correction : réviser, combler et refactorer du code existant.
Pourquoi le Prompt Engineering est mort (Vive le Loop Engineering)
Le prompt engineering optimise une exécution unique ; le Loop Engineering optimise un système qui s'améliore à chaque tour. Pourquoi le paradigme bascule, et ce qui survit de l'art du prompt.
GLM-5.2 : le modèle open-weights de Z.ai qui défie les modèles fermés pour agentique coding !
Annoncé mi-juin 2026, GLM-5.2 de Z.ai (ex-Zhipu AI) est un modèle open-weights — MoE, 744 milliards de paramètres, contexte 1M, licence MIT — optimisé pour le codage agentique long-horizon. Specs, benchmarks constructeur, prix, et les réactions d'experts comme Jeremy Howard ou Mat Velloso.