SFEIR
Technologie

Ornith-1.0

Famille de modèles open-source (MIT) de DeepReinforce spécialisée dans le codage agentique, entraînée par RL à générer ses propres scaffolds.

Une famille de modèles open-source pour le codage agentique

Ornith-1.0 est une famille de modèles de langage publiée fin juin 2026 par DeepReinforce, laboratoire américain, sous licence MIT. Elle est spécialisée dans le codage agentique : planifier, utiliser des outils, exécuter du code et résoudre des tâches d'ingénierie logicielle de bout en bout dans un dépôt. Les poids sont distribués sur Hugging Face et Ollama, aux formats GGUF, FP8 et vLLM.

Un entraînement par RL « self-scaffolding »

L'innovation revendiquée est un cadre d'entraînement par renforcement dit self-scaffolding (auto-échafaudage) : le modèle apprend simultanément à résoudre la tâche de code et à générer lui-même les scaffolds — cadres de raisonnement, workflows, prompts d'orchestration — qui guident sa résolution. L'optimisation conjointe scaffold + solution vise à découvrir de meilleures trajectoires sans dépendre uniquement de harnais conçus par des humains.

Quatre variantes, des bases Qwen et Gemma

La famille compte un 9B Dense (edge/laptop), un 35B MoE (le plus pratique sur matériel grand public), un 397B MoE « frontier-scale » et un 31B Dense annoncé mais dont les poids publics tardaient à sortir sur Hugging Face fin juin 2026. Tous sont post-entraînés sur des bases Gemma 4 et Qwen 3.5 — un fine-tuning de modèles existants, non une architecture nouvelle.

Des benchmarks constructeur à lire avec prudence

DeepReinforce revendique pour le 397B un score Terminal-Bench 2.1 de 77,5 (contre 70,3 pour Claude Opus 4.7) et SWE-Bench Verified de 82,4 (contre 80,8). Le 9B afficherait 69,4 sur SWE-Bench Verified, loin devant Qwen 3.5-9B (53,2). Ce sont des chiffres constructeur, moyennés sur plusieurs runs à des réglages précis : ils situent un ordre de grandeur, ils ne tranchent pas un classement. Les premiers retours communautaires sont polarisés et fortement dépendants du harnais d'exécution.

Questions fréquentes

Qu'est-ce qu'Ornith-1.0 ?

Ornith-1.0 est une famille de modèles de langage open-source (licence MIT) publiée fin juin 2026 par le laboratoire américain DeepReinforce. Elle est spécialisée dans le codage agentique et se décline en quatre variantes (9B, 31B, 35B MoE, 397B MoE), post-entraînées sur des bases Qwen 3.5 et Gemma 4.

Qu'est-ce que le « self-scaffolding » d'Ornith-1.0 ?

C'est un entraînement par renforcement où le modèle apprend en même temps à résoudre une tâche de code et à générer lui-même les scaffolds (cadres de raisonnement, workflows, prompts d'orchestration) qui guident sa résolution. L'idée est d'optimiser conjointement le harnais et la solution plutôt que de dépendre de harnais conçus à la main.

Ornith-1.0 dépasse-t-il vraiment Claude Opus 4.7 ?

Sur les benchmarks publiés par DeepReinforce (Terminal-Bench 2.1, SWE-Bench Verified), la variante 397B affiche des scores légèrement supérieurs à Claude Opus 4.7. Ce sont des chiffres constructeur : les retours d'usage réel sont plus contrastés et très dépendants du harnais. Excellent dans un setup agentique outillé, le modèle retrouve hors harnais les faiblesses de la famille Qwen (hallucinations, boucles sur les appels d'outils).

Articles liés