SRE et observabilité : monitorer les systèmes d'IA en production
Quand l'IA passe en production : un nouveau défi pour les équipes SRE
Pendant des années, les ingénieurs SRE ont appris à monitorer des services relativement prévisibles : des APIs qui répondent en millisecondes, des pipelines de données dont on connaît les volumes, des microservices dont le comportement est déterministe. La règle d'or était simple — si la latence monte et que le taux d'erreur explose, quelque chose ne va pas.
Mais que se passe-t-il quand le système que vous surveillez est un agent d'IA qui prend des décisions autonomes ? Quand il peut manipuler des fichiers, appeler des APIs tierces, orchestrer d'autres agents et produire des résultats dont la "correction" n'est pas toujours binaire ? Les équipes SRE font face à une rupture de paradigme aussi profonde que celle qu'elles avaient connue lors du passage aux architectures microservices — à une différence près : les conséquences d'une dérive silencieuse peuvent être bien plus lourdes.
Chez SFEIR, nous accompagnons nos clients dans cette transition depuis les premières expérimentations en IA générative jusqu'aux déploiements en production à grande échelle. Et ce que nous observons sur le terrain en 2025-2026 est sans ambiguïté : l'observabilité des systèmes d'IA agentique est le nouveau terrain critique du SRE, et la plupart des organisations ne sont pas encore équipées pour y faire face.
L'IA agentique : pourquoi l'observabilité classique ne suffit plus
Pour comprendre le problème, il faut d'abord saisir ce qui distingue fondamentalement un système d'IA agentique d'un service applicatif traditionnel.
Un microservice traite une requête selon une logique déterministe : les mêmes inputs produisent (à quelques exceptions près) les mêmes outputs. Vous pouvez définir des SLIs précis — taux de succès, latence au 99e percentile, débit — et bâtir des alertes autour de seuils numériques clairs.
Un agent d'IA, lui, opère différemment. Comme le souligne le rapport Tech Trends 2026 de SFEIR et WEnvision, nous sommes passés de l'ère du copilote à celle de l'IA agentique : des systèmes qui n'assistent plus, mais qui agissent. Un agent peut enchaîner plusieurs appels à des outils, modifier son plan en cours d'exécution, sous-déléguer des tâches à d'autres agents, et produire des résultats dont la qualité est intrinsèquement subjective.
Trois caractéristiques rendent l'observabilité classique insuffisante :
- Le non-déterminisme : deux exécutions identiques du même agent peuvent produire des résultats différents. Les métriques de "succès" doivent être repensées.
- La temporalité étendue : là où une requête HTTP prend quelques millisecondes, une tâche agentique peut s'étaler sur plusieurs minutes, voire plusieurs heures, avec des états intermédiaires complexes.
- L'impact réel dans le monde : un agent ne se contente pas de retourner une réponse — il peut envoyer des emails, modifier des bases de données, déployer du code. Une dérive non détectée a des conséquences tangibles et potentiellement irréversibles.
L'IA Mesh et l'Agentic Mesh : cartographier la complexité distribuée
Pour aborder l'observabilité des systèmes d'IA modernes, il est indispensable de comprendre l'architecture dans laquelle ils s'inscrivent. Deux concepts structurants émergent en 2026 : l'IA Mesh et l'Agentic Mesh.
L'IA Mesh : une infrastructure d'IA distribuée et interconnectée
L'IA Mesh désigne l'ensemble du tissu technologique qui supporte les capacités d'intelligence artificielle au sein d'une organisation : les modèles de fondation, les couches d'abstraction, les connecteurs vers les sources de données, les registres de prompts, les pipelines d'évaluation. À l'image du service mesh qui a révolutionné la gestion des microservices, l'IA Mesh introduit une couche transversale de gouvernance et d'observabilité pour tous les composants d'IA.
Dans une architecture IA Mesh mature, chaque interaction avec un modèle — qu'il s'agisse d'un appel direct depuis une application ou d'un appel initié par un agent — transite par des points de contrôle qui capturent des métadonnées essentielles : quel modèle a été invoqué, avec quel prompt, en combien de temps, avec quel coût en tokens, et avec quelle évaluation de qualité.
L'Agentic Mesh : orchestrer des réseaux d'agents autonomes
L'Agentic Mesh va plus loin : c'est le réseau d'agents autonomes qui collaborent, se délèguent des tâches et partagent du contexte pour accomplir des objectifs complexes. Là où un seul agent peut gérer une tâche bien définie, un Agentic Mesh permet de décomposer des problèmes d'entreprise entiers en flux de travail multi-agents.
Imaginez un scénario concret dans un cabinet de conseil : un agent "coordinateur" reçoit une demande d'analyse de marché. Il délègue la collecte de données financières à un agent spécialisé, confie la recherche documentaire à un second, et charge un troisième de la mise en forme du rapport. Chacun de ces agents peut lui-même invoquer des outils ou d'autres sous-agents. Le résultat final émerge d'une collaboration distribuée dont la chaîne de causalité peut être extraordinairement complexe à retracer.
Pour les équipes SRE, cela crée un défi fondamental : comment monitorer un système dont le "comportement attendu" est lui-même défini de façon probabiliste et distribuée ?
Les nouveaux SLIs et SLOs pour l'IA en production
Le cadre SRE classique — définir des Service Level Indicators, fixer des Service Level Objectives, calculer un budget d'erreur — reste pertinent. Mais il doit être étendu pour capturer ce qui compte vraiment dans un système d'IA agentique.
Au-delà de la disponibilité : les indicateurs de qualité sémantique
Un agent d'IA peut être techniquement "disponible" — il répond en moins de deux secondes, sans erreur HTTP 500 — tout en produisant des résultats de mauvaise qualité, des hallucinations, des décisions inappropriées. L'observabilité doit donc intégrer une dimension sémantique.
Dans les projets que nous accompagnons chez SFEIR, nous travaillons avec nos clients à définir plusieurs familles d'indicateurs :
- Indicateurs techniques : latence par étape du pipeline agentique, taux d'échec des appels d'outils, coût en tokens par tâche, taux de réessai des appels LLM.
- Indicateurs comportementaux : taux de complétion des tâches (l'agent a-t-il atteint son objectif ?), nombre d'étapes moyennes par tâche (un agent qui "tourne en rond" est un signal d'alerte), distribution des types d'actions effectuées.
- Indicateurs de qualité : score d'évaluation automatique via un LLM-as-judge, taux d'intervention humaine (dans les workflows avec validation humaine), taux de rejet ou de correction par les utilisateurs finaux.
- Indicateurs de conformité : taux d'appels à des ressources non autorisées, détection de tentatives de prompt injection, respect des contraintes de périmètre définies.
Le budget d'erreur revisité
Le concept de budget d'erreur — cette tolérance aux pannes qui équilibre fiabilité et vélocité — doit lui aussi être repensé. Dans un système agentique, certaines erreurs sont beaucoup plus coûteuses que d'autres. Un agent qui rate une recherche documentaire est récupérable ; un agent qui envoie un email erroné à un client ou qui déploie une modification non souhaitée en production ne l'est pas.
Nous recommandons à nos clients d'introduire une pondération du budget d'erreur par impact réversibilité : les actions irréversibles (écriture, envoi, déploiement) consomment le budget beaucoup plus vite que les actions de lecture ou de génération de contenu intermédiaire.
Traçabilité distribuée : le nerf de la guerre dans l'Agentic Mesh
Dans un Agentic Mesh, reconstituer la chaîne de causalité d'un incident est un défi de premier ordre. Quand un résultat erroné émerge d'un pipeline multi-agents, les questions se multiplient : quel agent a pris la mauvaise décision ? Sur quelle base ? Avec quel contexte ? À quelle étape la dérive s'est-elle introduite ?
Le tracing agentique : étendre OpenTelemetry
Les standards de l'observabilité distribuée — OpenTelemetry en tête — constituent la base sur laquelle construire, mais ils nécessitent des extensions spécifiques pour l'IA agentique. Un span OpenTelemetry classique capture la durée et les attributs d'une opération. Pour un agent d'IA, on doit y ajouter :
- Le prompt complet envoyé au modèle (ou un hash pour les données sensibles)
- La réponse reçue, avec les métadonnées de complétion (nombre de tokens, modèle utilisé, raison d'arrêt)
- Les outils invoqués et leurs résultats
- L'état du contexte de l'agent à chaque étape
- Les décisions de planification prises par l'agent (et les alternatives considérées)
Des frameworks comme OpenLLMetry ou les instrumentations natives d'outils comme LangChain et LlamaIndex commencent à combler ce manque, mais la standardisation reste un chantier ouvert en 2026. Chez SFEIR, nous contribuons à aider nos clients à choisir et intégrer ces couches d'instrumentation dès la conception de leurs architectures agentiques, plutôt que de les ajouter après coup.
La propagation du contexte dans les chaînes d'agents
Un défi particulièrement épineux dans les architectures Agentic Mesh est la propagation du contexte de tracing à travers les frontières d'agents. Quand l'agent A délègue une tâche à l'agent B via un message asynchrone, comment s'assurer que le span de B est correctement rattaché à la trace globale initiée par A ?
La réponse tient en trois principes que nous appliquons dans nos projets :
- Identifiant de trace unique par tâche de haut niveau : chaque requête entrant dans le système agentique reçoit un identifiant qui se propage à tous les sous-agents, quels que soient les mécanismes de communication utilisés.
- Enrichissement des messages inter-agents : les messages entre agents doivent systématiquement transporter les en-têtes de contexte de tracing, qu'il s'agisse de files de messages, d'API REST ou de partage de mémoire.
- Journalisation des décisions d'orchestration : l'agent coordinateur doit exposer ses décisions de délégation comme des événements observables, pas seulement des logs de débogage.
Détection des anomalies spécifiques aux systèmes d'IA
Au-delà de la traçabilité, les équipes SRE qui gèrent des systèmes d'IA agentique doivent développer une nouvelle sensibilité aux patterns d'anomalies qui leur sont propres.
Les dérives de comportement silencieuses
Contrairement à une panne franche — un service down, une exception non gérée — les dérives d'un système d'IA sont souvent silencieuses. Le modèle commence à produire des réponses légèrement différentes suite à une mise à jour, la qualité moyenne des sorties décline progressivement, les décisions prises par les agents s'écartent imperceptiblement du comportement attendu.
La détection de ces dérives requiert des approches statistiques sur la durée : surveiller la distribution des scores d'évaluation, détecter les changements dans la distribution des types d'actions prises, monitorer l'évolution du coût moyen en tokens (un agent qui consomme de plus en plus de tokens pour des tâches similaires peut signaler une dégradation de ses capacités de planification).
Les boucles et les comportements runaway
Un risque spécifique aux agents autonomes est la boucle infinie : un agent qui se retrouve dans un état où il répète des actions sans progresser vers son objectif. Ces situations peuvent être coûteuses (en termes de tokens consommés et de ressources computationnelles) et doivent être détectées rapidement.
Les signaux à surveiller incluent :
- Un nombre d'étapes par tâche qui dépasse significativement la médiane historique
- Des appels répétés au même outil avec des paramètres très proches
- Une durée totale de tâche qui approche des seuils de timeout sans signaux de progression
- Une consommation de tokens qui croît de façon superlinéaire
Les attaques et injections de prompt
La sécurité est une dimension de l'observabilité que les SRE des systèmes d'IA ne peuvent pas ignorer. Les injections de prompt — des tentatives d'un utilisateur malveillant ou d'une source de données compromise d'altérer le comportement d'un agent — sont une menace réelle en production.
L'observabilité joue ici un rôle défensif : en loggant et en analysant les prompts entrants et les comportements déviants, on peut détecter des patterns d'attaque. Dans l'Agentic Mesh, la surface d'attaque est amplifiée — chaque source de données externe qu'un agent peut lire est un vecteur potentiel d'injection indirecte.
Construire un stack d'observabilité pour l'IA en production
Concrètement, à quoi ressemble un stack d'observabilité adapté aux systèmes d'IA agentique ? Sur la base de nos expériences terrain chez SFEIR, voici l'architecture que nous recommandons à nos clients.
La couche de collecte
L'instrumentation au plus près du code reste la fondation. Les SDKs des frameworks agentiques (LangChain, LlamaIndex, CrewAI, AutoGen…) doivent être configurés pour émettre des traces et des métriques enrichies. Un collecteur OpenTelemetry centralisé — potentiellement déployé sur Kubernetes comme un DaemonSet — agrège ces signaux et les achemine vers les backends appropriés.
Un point critique souvent négligé : la gestion de la volumétrie. Un agent complexe peut générer des centaines de spans par tâche, et des milliers de tâches peuvent s'exécuter en parallèle. Des stratégies de sampling intelligent — conserver systématiquement les traces en erreur, les traces anormalement longues, et un échantillon statistique des traces nominales — sont indispensables pour maîtriser les coûts de stockage.
La couche d'analyse et d'évaluation
Au-dessus de la collecte, une couche d'évaluation automatique est nécessaire pour donner du sens aux traces. Des plateformes comme LangSmith, Langfuse (open-source) ou Arize Phoenix offrent des fonctionnalités spécialisées pour l'analyse de traces LLM : visualisation des chaînes d'appels, comparaison de versions de prompts, scoring automatique des réponses.
Pour les organisations qui préfèrent une approche souveraine — un sujet particulièrement sensible pour les entreprises françaises — nous aidons nos clients à construire leurs propres pipelines d'évaluation sur des stacks open-source, en intégrant des évaluateurs LLM-as-judge basés sur des modèles hébergés en interne.
La couche d'alerting et de réponse
L'alerting pour les systèmes d'IA doit être pensé à deux vitesses :
- Alertes temps réel pour les anomalies techniques (boucles infinies, dépassements de budget tokens, taux d'échec technique anormal) : ces alertes doivent déclencher une intervention immédiate.
- Alertes tendancielles pour les dérives de qualité (dégradation progressive des scores d'évaluation, dérive de distribution des comportements) : ces alertes alimentent des revues régulières et des cycles d'amélioration.
Dans plusieurs projets clients, nous avons mis en place des runbooks automatisés pour les réponses aux incidents les plus fréquents : rollback automatique vers une version précédente d'un prompt en cas de dégradation détectée, circuit breaker qui bascule un agent autonome en mode "supervision humaine obligatoire" quand son comportement sort des limites définies.
La dimension humaine : SRE et gouvernance de l'IA agentique
L'observabilité technique n'est qu'une partie de l'équation. Les rapports Tech Trends 2026 de SFEIR et WEnvision le soulignent avec force : nous entrons dans une ère où la confiance devient un avantage compétitif. La souveraineté et la sécurité ne sont plus des contraintes réglementaires à minimiser, mais des différenciateurs stratégiques.
Pour les équipes SRE, cela se traduit par un rôle élargi. Au-delà de la fiabilité technique, elles deviennent gardiennes de la fiabilité comportementale des systèmes d'IA. Ce nouveau rôle requiert :
- Une collaboration étroite avec les équipes de data science et d'IA pour comprendre les modèles de comportement attendus et définir des métriques d'évaluation pertinentes.
- Des processus de revue des incidents IA qui vont au-delà de la post-mortem technique pour analyser la chaîne de décision de l'agent et identifier les points d'amélioration du système de supervision.
- Une culture du "human in the loop" calibrée : savoir quand l'autonomie de l'agent est justifiée et quand un point de validation humaine est nécessaire, et s'assurer que ces points de contrôle sont effectivement observés en production.
Chez SFEIR, nous accompagnons nos clients non seulement sur le volet technique de l'observabilité, mais aussi sur la transformation des pratiques SRE que l'IA agentique implique. Cela passe par des formations spécifiques, la mise en place de communautés de pratique SRE × IA, et l'intégration de l'observabilité dès les phases de conception des architectures agentiques — ce que nous appelons le Reliability by Design pour l'IA.
Ce que nous retenons : les fondements d'une observabilité IA mature
Le passage à l'IA agentique n'est pas une évolution incrémentale de l'existant — c'est une rupture qui exige de repenser en profondeur les pratiques SRE. Les organisations qui s'y préparent dès maintenant construiront un avantage durable ; celles qui attendent de subir leurs premiers incidents de production en découvriront le coût à leurs dépens.
Pour conclure, voici les principes que nous mettons en avant dans nos accompagnements :
- Instrumentez dès la conception, pas en post-production. L'observabilité d'un Agentic Mesh doit être une exigence architecturale, au même titre que la sécurité ou la scalabilité.
- Définissez vos SLOs comportementaux avant de déployer. Qu'est-ce qu'un agent "fiable" pour votre cas d'usage ? Formalisez-le en métriques mesurables.
- Investissez dans la traçabilité distribuée native aux architectures IA Mesh et Agentic Mesh. Les standards émergent — OpenTelemetry, les sémantiques de conventions LLM — adoptez-les avant que la dette technique s'accumule.
- Construisez une culture de la réversibilité. Les agents autonomes peuvent agir vite et fort. Vos mécanismes de supervision doivent être à la hauteur de leur capacité d'action.
- Faites du SRE un acteur de la gouvernance IA, pas seulement de l'infrastructure. La fiabilité des systèmes d'IA est autant une question d'alignement comportemental que de disponibilité technique.
L'IA agentique est en train de transformer en profondeur la chaîne de valeur du numérique. Les équipes SRE qui sauront s'adapter seront au cœur de cette transformation — non plus comme les gardiens de la disponibilité, mais comme les architectes de la confiance dans les systèmes d'IA de demain.