SFEIR

Sécurité Claude Fable 5 : comment fonctionnent les classifieurs, les fallbacks et les safeguards contre le développement de LLM concurrents ?

SFEIR
Sécurité Claude Fable 5 : comment fonctionnent les classifieurs, les fallbacks et les safeguards contre le développement de LLM concurrents ?

Une intelligence routée, monitorée, partiellement restreinte

La sécurité de Claude Fable 5 n'est pas un détail : c'est l'élément qui transforme un modèle en produit déployable. Là où Mythos 5 livre les capacités brutes, Fable 5 est Mythos « routé » à travers une couche de contrôle. Cet article est le plus technique du cluster ; pour le panorama général, voir le guide complet de Claude Fable 5.

Les quatre catégories de classifieurs et le fallback visible

Fable 5 lance des contrôles automatisés sur chaque requête, ciblant quatre domaines : cybersécurité offensive (exploits, malware, outillage d'attaque), biologie/chimie (méthodes de laboratoire, mécanismes moléculaires), tentatives de distillation, et développement de LLM frontières.

Pour les trois premières catégories, le mécanisme est un fallback visible : la requête est transmise à Claude Opus 4.8, qui répond à la place de Fable 5. Anthropic affirme que ces safeguards se déclenchent dans moins de 5 % des sessions en moyenne. L'utilisateur n'est pas facturé au tarif Fable pour les requêtes redirigées ; si une requête est bloquée en milieu de conversation, les tokens initiaux sont facturés au tarif Fable et les suivants au tarif Opus.

Le centre d'aide d'Anthropic distingue les « hard blocks » (refus quasi absolus : armes CBRN, CSAM, attaques contre les infrastructures critiques) des « soft blocks » (défauts modifiables selon le contexte, le cadrage professionnel ou le system prompt de l'opérateur). Sur l'API, le défaut est un refus structuré ; le fallback automatique est une option à activer.

L'épisode du silent safeguard : chronique d'un rétropédalage en 48 heures

La quatrième catégorie a déclenché la plus grande controverse de l'année dans la communauté IA. Anthropic a décrit dans sa documentation un mécanisme qui, sur cette catégorie, limite l'efficacité du modèle sur certaines requêtes sensibles plutôt que de les refuser ou de basculer visiblement vers un autre modèle.

Autrement dit : pas de refus, pas de bascule visible, mais une dégradation silencieuse de la réponse. Anthropic estimait que cela touchait environ 0,03 % du trafic, concentré dans moins de 0,1 % des organisations, et justifiait la mesure comme l'application de ses conditions d'utilisation (interdiction d'utiliser Claude pour développer des modèles concurrents).

Le backlash fut vif. Des critiques ont reproché le caractère silencieux de la dégradation : un modèle qui devient moins performant sans le signaler à l'utilisateur. La principale objection technique : le silent safeguard introduit un facteur de confusion non journalisé dans la recherche — un échec d'expérience ressemble à une mauvaise hypothèse autant qu'à un modèle bridé.

Le 11 juin 2026, Anthropic est revenue sur cette approche et a reconnu un mauvais arbitrage. Désormais, les requêtes flaguées pour cette catégorie basculent visiblement vers Opus 4.8, comme pour le cyber et la bio, et l'utilisateur voit ce basculement à chaque fois. Le revirement reste partiel : Anthropic ne supprime pas la restriction, elle la rend visible — possiblement au prix de davantage de faux positifs.

Robustesse aux jailbreaks et alignement

Anthropic dit avoir mené plus de 1 000 heures de red-teaming via bug bounty sans qu'aucun jailbreak universel ne soit découvert ; les organisations externes ont également échoué sur les tâches agentiques long-form. L'UK AISI a toutefois fait des progrès dans une fenêtre de test compressée — développant un jailbreak pour des requêtes single-turn de découverte de vulnérabilités en quelques heures, puis l'étendant à des appels d'outils agentiques multi-étapes en deux jours environ, sans compléter de tâche malveillante long-form. Les safeguards reposent sur les Constitutional Classifiers. Sur le benchmark de red-teaming agentique Gray Swan/UK AISI, Anthropic indique pour Fable 5 un taux de succès d'attaque à k=100 de 4,8 % et de 0,1 % à k=1. L'évaluation d'alignement automatisée trouve un niveau de comportements désalignés faible, comparable à Opus 4.8.

La rétention des données : 30 jours, jusqu'à 2 ans

Fable 5 impose une rétention de 30 jours sur tout le trafic (première et tierce parties), et jusqu'à 2 ans pour le contenu flagué par les classifieurs trust & safety. Anthropic affirme que ces données ne serviront pas à entraîner ses modèles, que tout accès humain est journalisé et que les données seront supprimées après 30 jours dans la quasi-totalité des cas. Selon Anthropic, cette politique de rétention s'applique à cette classe de modèles indépendamment des options de rétention réduite proposées par ailleurs.

Comparaison avec Mythos 5

Mythos 5, c'est le même modèle sans les classifieurs de sécurité dans certains domaines. Là où Fable 5 retombe vers Opus 4.8 sur le cyber et la bio, Mythos 5 répond à pleine puissance — d'où sa restriction aux partenaires de confiance. Pour la généalogie des deux modèles, voir Claude Fable 5 vs Mythos 5.

FAQ

Combien de temps mes données sont-elles conservées avec Fable 5 ? 30 jours par défaut, jusqu'à 2 ans si le contenu est flagué.

Le silent safeguard existe-t-il encore ? Non : depuis le 11 juin 2026, les safeguards de développement LLM frontière sont visibles et basculent vers Opus 4.8.

Puis-je désactiver les classifieurs ? Non pour Fable 5. Les professionnels de la cybersécurité peuvent demander l'accès au Cyber Verification Program pour des restrictions allégées.

Voir aussi : les vrais avantages et inconvénients de Fable 5.

SFEIR Auteur