compound-engineering sdlc-augmenté harness-engineering agents-ia

Vos pilotes IA marchent. Votre SDLC, lui, ne change pas.

SFEIR

13 mai 2026

Vos pilotes IA marchent. Votre SDLC, lui, ne change pas.

Discipline, architecture, apprentissage. Pourquoi aucune des trois ne suffit seule — et pourquoi les trois ensemble changent de régime.

Vos pilotes d'IA marchent. Vos collaborateurs utilisent ChatGPT, Claude, Copilot. Vous avez des bots métier déployés, des cas d'usage générateurs, peut-être même un assistant maison. Les graphes d'adoption montent.

Et pourtant : votre chaîne de production logicielle ne change pas structurellement. Le temps qu'il faut pour qu'une exigence devienne du code en production reste le même. La dette technique continue de s'accumuler. Le legacy reste opaque. Les revues de code prennent le même temps qu'il y a deux ans.

C'est qu'il manque trois choses, pas une. Et tant que les trois ne sont pas en place, l'IA d'expérimentation ne devient pas un SDLC industriel.

Le bottleneck n'est plus le modèle

Le débat 2024–2025 sur « quel modèle choisir » est clos. Les modèles frontaliers — Opus 4.7, GPT, Gemini — sont indiscernables sur 90 % des tâches de génération de code et de raisonnement structuré. Ce qui sépare une équipe qui livre 5× plus vite d'une équipe qui en parle, ce n'est plus le modèle qu'elle utilise. C'est ce qu'elle a construit autour.

Et c'est précisément ce qui se construit mal : la chaîne. Pas le modèle, la chaîne.

Un exemple concret. Deux équipes utilisent le même modèle, sur la même base de code, avec les mêmes développeurs. L'une intègre l'agent dans sa CI/CD avec garde-fous mesurés, capitalise les patterns dans un contexte vivant, et fait passer chaque PR par une revue parallèle multi-personae. L'autre ouvre Claude Code à la demande, ad hoc, par dev. À six mois, la première a baissé son cycle time PR de 30 % et augmenté sa couverture de tests de 25 points. La seconde n'a rien mesuré et continue d'avoir le débat « est-ce que ça marche vraiment ? » en COMOP. Même modèle. Chaîne différente.

Trois couches en panne, qu'il faut réparer simultanément.

Discipline — sans elle, l'agent emprunte le chemin le plus court. Il génère du code sans tests, des specs sans assumptions explicites, des PR sans rollback. La discipline impose le cycle complet, gate par gate.

Architecture — sans elle, la discipline s'érode. Chaque feature ré-invente ses standards. Les garde-fous ne tiennent qu'un sprint. L'architecture rend la discipline portable.

Apprentissage — sans elle, chaque cycle redémarre à zéro. Les leçons d'une revue restent dans la tête d'un dev qui partira. L'apprentissage compose : ce qu'on apprend en juin doit être appliqué automatiquement en juillet.

Aucune des trois ne suffit. Une équipe disciplinée sans architecture s'effondre au troisième dev qui rejoint. Une architecture sans discipline n'est qu'un dossier docs/. Et les deux sans capitalisation de l'apprentissage produisent toujours la même équipe en septembre qu'en mars.

C'est la combinaison qui change de régime. L'effet compound triple-couché.

Les trois couches qui transforment des pilotes IA en SDLC industriel — discipline, architecture, apprentissage — opèrent en synergie.

Le cycle qui apprend de lui-même

Le scaffold opérationnel est public. Addy Osmani le maintient sur GitHub (24 200 étoiles) : six phases, vingt skills, un format imposé. DEFINE → PLAN → BUILD → VERIFY → REVIEW → SHIP, suivies d'une étape qui n'apparaît dans aucun manuel de management et qui est la plus importante : COMPOUND.

Le scaffold de Addy Osmani — six phases gate par gate, et l'étape COMPOUND qui transforme un cycle isolé en système d'apprentissage.

DEFINE est la phase que tout le monde saute. C'est l'erreur. Avant qu'une seule ligne de code soit générée, l'agent doit lister les hypothèses qu'il fait. « ASSUMPTIONS I'M MAKING: 1. Web app, not mobile. 2. Session cookies, not JWT. 3… » C'est là que l'humain reprend la main. Vingt minutes investies ici économisent trois jours en aval. Les équipes qui pratiquent ce pattern — Karpathy le défend depuis Software 3.0, Philippe Martin l'a opérationnalisé dans la BMAD method — réduisent leur taux de rework de 40 %.

PLAN n'est plus séquentiel. On lance trois éclaireurs en parallèle, dans une seule réponse : un dans la base de code, un dans les bonnes pratiques publiques, un sur les versions de framework et leurs breaking changes. Trois contextes, trois sorties, une synthèse. Puis on charge les leçons des cycles passés — « naming pattern from PR #234 », « rate limit pattern from issue #112 » — et on construit un plan qui cite ce qu'on a appris. C'est la mécanique que Kieran Klaassen documente chez Every depuis fin 2025 : plan-from-feedback.

BUILD se fait en tranches verticales, derrière feature flag, avec rollback prêt. Le code est inside-out : domaine d'abord, infrastructure ensuite, interface en dernier. À chaque tranche, le test rouge avant le code vert. Pas l'inverse. Quand un choix de framework est fait, l'agent cite la documentation officielle qui justifie ce choix — ce que la communauté appelle désormais source-driven development. Pas de citation, pas de génération.

VERIFY ne se contente pas de « les tests passent ». Il vérifie aussi que les tests existent — sur la pyramide 80/15/5, sur les chemins d'erreur, sur les frontières de confiance. Si l'UI est touchée, un agent navigue le flow réel via DevTools MCP, capture le DOM, le réseau et la console — pas un mock. Si un bug remonte, l'agent applique un triage en cinq étapes : reproduce → localize → reduce → fix → guard. Le guard est non-négociable : un test qui aurait attrapé le bug doit exister avant que le bug soit corrigé.

REVIEW est l'étape qui change tout. Quatre revues lancées en parallèle, dans une seule réponse, sur le même PR : un code-reviewer senior, un security-auditor sur l'OWASP Top 10, un test-engineer sur la pyramide, un agent performance sur les Core Web Vitals. Quatre voix indépendantes, agrégées en un seul verdict. Si une voix dit NEEDS_FIX, on rejoue uniquement cette voix après correction. Maximum trois itérations. Au-delà, l'humain reprend. C'est l'architecture qu'Alistair Gray a documentée chez Stripe en début 2026 sous le nom Minions : des agents spécialisés, scopés, qui décident en parallèle.

SHIP est une checklist, pas un acte de foi. Code, sécurité, performance, accessibilité, infrastructure, documentation. Six sections à valider, mécaniquement. Puis le déploiement derrière feature flag : 0 % → 5 % canary → 25 % → 50 % → 100 %, avec monitoring à chaque étape et un ROLLBACK.md qui dit, en concret, comment annuler — pas en théorie, en commandes shell.

Et après SHIP, COMPOUND. C'est la non-négociable. On extrait du cycle qui vient de finir tout ce qui peut servir au prochain : les insights de revue migrent dans learnings/, les bugs récurrents deviennent des règles automatiques — un hook qui bloque le prochain commit qui les ré-introduit. Les patterns durables remontent dans le contexte projet. Sans cette étape, le cycle suivant repart à zéro. Avec elle, le cycle suivant démarre plus haut.

C'est ce qu'Every appelle, depuis fin 2025, le Compound Engineering. Une équipe Cora qui livre, mesurée, 12 sub-agents en revue parallèle et un ratio observé d'un dev équivalent à cinq. Ce n'est pas une métaphore — c'est ce que Klaassen et Shipper documentent, cycle par cycle, dans leur newsletter Source Code.

L'architecture qui rend la discipline soutenable

La discipline seule ne tient pas. Sans architecture portable, les garde-fous se dégradent au troisième dev qui rejoint, au troisième mois qui passe, à la troisième feature livrée.

L'architecture qui marche est composable. Pas un monolithe. Atoms, molecules, refiners — c'est le modèle que techygarg formalise dans le framework Lattice, relayé sur martinfowler.com début 2026, et qui a déjà essaimé.

Le framework Lattice : les atoms mono-principe se composent en molecules, et les refiners — les fichiers Markdown propres à votre projet — fournissent le contexte vivant qui rend l'architecture portable.

Les atoms sont des skills mono-principe, auto-appliqués par l'agent pendant la génération : clean-code, secure-coding, test-quality, domain-driven-design. Ils ne demandent rien — ils s'imposent. Un agent qui touche une frontière de confiance déclenche secure-coding. Un agent qui écrit un test déclenche test-quality. La discipline n'a plus besoin d'être rappelée, elle est câblée.

Les molecules composent les atoms en workflows : design-blueprint, code-forge, refactor-safely, bug-fix. Une molecule pose une séquence d'atoms dans le bon ordre, avec les bons gates. C'est de la chorégraphie, pas du framework.

Les refiners sont l'élément qui rend l'architecture propre à votre projet. Une interview guidée — quinze questions sur votre stack, vos conventions, votre domaine — produit six à dix fichiers Markdown dans un dossier standards/. Ces fichiers deviennent le contexte vivant que tous les atoms chargent à chaque génération. Vous ne re-prompterez pas vos agents à chaque feature. Vous les avez câblés une fois. À chaque cycle suivant, ce contexte s'enrichit : un atome bien écrit gagne en précision avec l'usage, là où un prompt jetable se perd dans l'historique de Slack.

Trois fichiers, lus à chaque génération, valent mille rappels en réunion.

Et le pattern qui rend tout cela tenable, c'est ce qu'Osmani impose au format des skills : un tableau anti-rationalisation dans chaque skill, qui anticipe les excuses (« je vais ajouter les tests plus tard », « cette feature est simple, on saute DEFINE ») et fournit le contre-argument dans le prompt lui-même. L'agent ne peut plus rationaliser le raccourci, parce que le raccourci a déjà été démonté avant qu'il y pense.

C'est ce détail — un tableau Markdown en dix lignes au milieu d'un fichier de skill — qui sépare un agent qui marche d'un agent qui dérive.

Le piège de l'expérimentation prolongée

Pourquoi tant de programmes IA stagnent ? Pas parce que les outils manquent — Copilot, Claude Code, Cursor, Gemini CLI sont partout. Quatre raisons, dans l'ordre où elles tuent.

L'apprentissage n'est pas capitalisé. C'est la cause principale, et elle est silencieuse. Sans étape COMPOUND explicite à la fin du cycle, chaque feature repart à zéro. Les leçons d'une revue de PR restent dans la tête d'un dev. Au sixième cycle, vous re-faites les mêmes erreurs qu'au premier. Le DORA Report 2026 documente cette J-curve : les équipes qui ne capitalisent pas plafonnent à trois mois ; celles qui le font composent à douze mois — et c'est là, à douze mois, que le ROI net dépasse 2×. Pas à trois mois.

Le TOM ne suit pas. Les squads restent dimensionnées pour un monde sans agents. On garde la même séparation Product / Analyste / Dev / QA, les mêmes hand-offs, les mêmes rituels longs. Le profil qui devient critique — product engineer, architecte orchestrateur, capable de tenir une vision produit en parallèle de l'opération d'un harnais d'agents — n'apparaît pas dans la grille RH. Sans bascule du TOM, la discipline du cycle n'a pas de propriétaire.

L'industrialisation des assistants de code reste artisanale. Les outils intégrés à l'IDE qui complètent, expliquent et écrivent du code — Copilot, Claude Code, Gemini CLI, Cursor — sont déployés sans patterns communs, sans garde-fous mesurables, sans baseline de productivité. Chaque dev les utilise différemment. Sans pattern partagé, vous ne mesurez rien. Et sans mesure, vous ne défendez pas le budget devant un COMEX. Le programme stagne par défaut d'argumentaire, pas par défaut de valeur.

La mesure rate la J-curve. On déclare l'échec au troisième mois parce qu'on regarde le mauvais indicateur sur la mauvaise fenêtre. Le panel Denisov-Blanch (Stanford) et Friedman (Qodo), dans la même intervention de fin 2025, le montrent côte à côte : sur douze mois, l'effet est massif ; sur trois mois, l'effet est nul, voire négatif. Mesurer la productivité d'agents au trimestre, c'est mesurer une fusée à l'allumage et déclarer qu'elle ne vole pas.

Les quatre raisons s'aggravent mutuellement. Pas de capitalisation → pas d'apprentissage → pas de baseline → pas de mesure → COMEX coupe le budget → l'expérimentation reste expérimentation. Pour toujours.

Le passage au régime industriel

L'effet compound n'est pas une optimisation. C'est un changement de régime.

Une équipe qui pratique les six phases avec discipline, qui s'appuie sur une architecture composable, et qui capitalise systématiquement à la fin de chaque cycle, ne ressemble pas, à dix-huit mois, à une équipe qui ne le fait pas. Elle livre plus vite — c'est mesurable. Mais surtout, elle apprend plus vite que ses concurrents — et l'écart se creuse, mois après mois.

C'est cette dynamique qui sépare les organisations qui auront fait de l'IA un actif structurel de celles qui auront fait, en 2026, « des cas d'usage ».

Karpathy le résume autrement (Software 3.0) : nous n'écrivons plus du code, nous configurons des chaînes qui en produisent. Le code est devenu un artefact, pas le travail. Le travail, c'est de tenir le harnais, de mesurer ce qu'il produit, de lui apprendre à éviter le prochain bug — et de capitaliser ce qu'il apprend.

Le test pratique tient en une question. Posez-la à votre équipe de delivery : « À la fin du dernier cycle, qu'avons-nous appris qui sera automatiquement appliqué au cycle suivant — pas par discipline humaine, mais parce que c'est câblé ? » Si la réponse est « rien » ou « on a ouvert un ticket dans le backlog », vous êtes encore dans l'expérimentation. Si la réponse est « trois nouveaux atomes, deux règles de revue automatique, un hook qui bloque le bug X », vous êtes passé au régime industriel.

Beaucoup en parlent. Peu le pratiquent.

Cet article s'appuie sur la veille active SFEIR : Addy Osmani (agent-skills), Kieran Klaassen & Dan Shipper (Every, Compound Engineering), techygarg (Lattice, via martinfowler.com), Andrej Karpathy (Software 3.0), Alistair Gray (Stripe Minions), DORA Report 2026, Philippe Martin (BMAD), panel Denisov-Blanch / Friedman (Stanford / Qodo). Si vous voulez en discuter — ou nous montrer où votre SDLC est bloqué — écrivez-nous.