Anthropic sort Claude Fable 5, premier modèle de classe Mythos ouvert au grand public, sept jours seulement après avoir appelé à un « frein d’urgence » sur l’IA. Une sortie sous très haute tension, entre records techniques et garde-fous assumés.
Un monstre sous tranquillisants
Claude Fable 5 n’est pas un modèle comme les autres. C’est la version bridée de Mythos 5, le modèle qu’Anthropic avait présenté en avril 2026 comme trop dangereux pour une diffusion publique, capable d’exploiter des failles de sécurité de manière autonome sans intervention humaine.
La solution d’Anthropic ? Des classifieurs de sécurité intégrés qui redirigent automatiquement les requêtes sensibles vers Opus 4.8, le modèle précédent. Cela concerne moins de 5 % des sessions, principalement sur des sujets de cybersécurité offensive, de biologie et de chimie. Le résultat est un modèle qui plafonne ses capacités les plus risquées tout en offrant des performances inédites sur le reste.
Des benchmarks qui écrasent la concurrence
Sur le terrain du code, Fable 5 ne fait pas dans la demi-mesure. Il atteint 80,3 % sur SWE-Bench Pro, loin devant Opus 4.8 (69,2 %), GPT-5.5 (58,6 %) et Gemini 3.1 Pro (54,2 %). Sur FrontierCode Diamond, l’écart est encore plus marqué : 29,3 % contre 13,4 % pour Opus 4.8 et 5,7 % pour GPT-5.5.
Côté terrain, les premiers retours sont éloquents. Stripe a utilisé Fable 5 pour migrer une codebase Ruby de 50 millions de lignes en une journée, une tâche qui aurait occupé une équipe complète pendant plus de deux mois. Le modèle a aussi terminé Pokémon Rouge Feu en autonomie, en utilisant uniquement sa vision pour naviguer dans le jeu.
La facture suit la montée en gamme : 10 dollars par million de tokens en entrée, 50 dollars en sortie, soit le double du tarif d’Opus 4.8.
Sept jours entre l’alarme et la fusée
Le paradoxe est difficile à ignorer. Le 2 juin 2026, Anthropic publiait un appel solennel au « frein d’urgence » sur le développement de l’IA, alertant sur les risques existentiels d’une course non maîtrisée. Le 9 juin, l’entreprise dégainait le modèle le plus puissant jamais rendu accessible au public.
Anthropic assume cette tension et la transforme en argument : Fable 5 serait la preuve qu’on peut pousser la puissance sans sacrifier la sécurité. Plus de 1 000 heures de red-teaming externe n’ont trouvé aucun jailbreak universel, et tous les accès humains aux données Mythos sont journalisés pour une traçabilité maximale. Les classifieurs internes déclenchent sur moins de 5 % des sessions, et l’UK AI Safety Institute, seul à avoir esquissé une brèche, n’a pas réussi à la transformer en contournement stable.
Reste ce goût d’inconfort : quand le labo qui crie au loup est aussi celui qui ouvre la cage, le public a le droit de se demander si le loup est vraiment muselé, ou s’il a juste appris à sourire.
