GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé

OpenAI a publié les premiers benchmarks officiels de GPT-5.6. La nouvelle famille de modèles, déclinée en trois variantes, signe des progrès mesurables en programmation, cybersécurité et sciences. Mais l’accès reste verrouillé par Washington, qui contrôle qui peut y toucher.

Deux mois après GPT-5.5, OpenAI remet une couche avec GPT-5.6. Le constructeur publie cette fois des chiffres précis pour répondre à la pression concurrentielle d’Anthropic et de son modèle Mythos. Le modèle haut de gamme, baptisé Sol, atteint 88,8 % sur TerminalBench 2.1, un benchmark concret qui mesure la capacité d’un agent IA à réaliser des tâches complètes dans un terminal Linux : installation de paquets, configuration de serveurs, exécution de scripts complexes. C’est 5,4 points de mieux que GPT-5.5 (83,4 %), et la variante Sol Ultra culmine même à 91,9 %, devançant Claude Mythos 5 sur cette épreuve. Le gain est concret : OpenAI assure que son modèle mène davantage de tâches techniques jusqu’au bout, avec moins d’intervention humaine.

TerminalBench 2.1 est devenu un étalon de référence pour comparer les capacités agentiques des LLM. Contrairement à des benchmarks plus théoriques comme MMLU ou HumanEval, il évalue la capacité d’un modèle à enchaîner des opérations réelles dans un environnement système, ce qui le rapproche des usages concrets en entreprise. Le score de Sol Ultra, à 91,9 %, signifie que le modèle parvient à mener à bien neuf tâches sur dix sans erreur bloquante, un niveau qui le rend utilisable pour des workflows d’administration système en conditions réelles.

Un plateau technique qui s’élève

Les progrès ne se limitent pas au terminal. En biologie computationnelle, Sol fait mieux que GPT-5.5 sur GeneBench v1 tout en générant moins de tokens, ce qui ouvre des perspectives pour la recherche pharmaceutique et la modélisation génétique. En cybersécurité, le résultat est plus contrasté. Sur ExploitBench, dédié à la recherche et l’exploitation de vulnérabilités, GPT-5.6 Sol se rapproche de Mythos Preview en utilisant environ trois fois moins de tokens de sortie, un gain d’efficacité significatif pour les équipes de sécurité. Claude conserve toutefois une avance sur ce test spécialisé.

GPT-5.6 introduit aussi deux niveaux de raisonnement supplémentaires pour s’adapter à la complexité des requêtes. Max donne plus de temps de calcul au modèle pour traiter un problème complexe, décomposer les étapes et vérifier chaque résultat avant de passer à la suite. Ultra répartit le travail entre plusieurs sous-agents qui collaborent sur des sous-tâches, une architecture qui rappelle les systèmes multi-agents déployés dans l’industrie. La gamme s’élargit avec Terra, annoncé comme deux fois moins cher que GPT-5.5 à performances comparables sur les usages courants, et Luna, conçu pour les traitements rapides et économiques. Cette segmentation tarifaire copie le modèle d’Anthropic, qui propose déjà Mythos et Fable à des niveaux de prix différenciés selon les capacités.

Trois modèles, zéro accès public

Ces avancées restent hors de portée du grand public. GPT-5.6 est d’abord disponible via l’API et Codex pour un petit groupe de partenaires dans le cadre d’un lancement progressif demandé par le gouvernement américain. OpenAI dit avoir consacré plus de 700 000 heures GPU A100 équivalent au red-teaming automatisé pour renforcer ses garde-fous. L’entreprise précise aussi que Sol ne franchit pas son seuil Cyber Critical : lors de tests sur Chromium et Firefox, il a identifié des briques d’exploitation sans produire de chaîne d’attaque complète dans les conditions évaluées.

La nervosité de Washington s’explique par la nature duale de ces modèles. Comme le souligne KultureGeek, OpenAI sait que Sol peut devenir un outil précieux pour l’analyse de vulnérabilités, à l’instar de Claude Fable 5 et Mythos, mais aussi un vecteur potentiel d’attaques automatisées si son raisonnement avancé est détourné. Ce feu vert sélectif transforme GPT-5.6 en disponibilité limitée : le gouvernement américain valide les acteurs autorisés à utiliser le modèle dans cette première phase. Pour l’industrie de l’IA générative, le précédent est majeur, car il consacre une intervention directe de Washington dans la mise sur le marché d’un produit privé.

Ce cadrage intervient alors qu’OpenAI a revu à la baisse en avril son propre framework de préparation aux risques. À mesure que les modèles gagnent en autonomie et en profondeur de raisonnement, l’entreprise accélère commercialement tandis que les États-Unis exigent désormais un droit de regard direct sur les conditions d’accès. OpenAI évoque une ouverture plus large dans les prochaines semaines, sans calendrier précis pour la France ou le reste de l’Europe. Les développeurs européens devront patienter, comme souvent dans cette guerre de l’IA où la souveraineté technologique s’invite dans le déploiement des modèles les plus avancés. Pendant ce temps, la course s’accélère entre les laboratoires américains. Anthropic prépare déjà la prochaine version de Mythos, Google peaufine Gemini 3 et Meta continue d’ouvrir ses modèles Llama. OpenAI vient de placer un pion technique solide avec GPT-5.6. Reste à savoir quand les développeurs français pourront vraiment l’exploiter.

Google : le nouveau CAPTCHA gestuel deja contourne

Cartes.gouv.fr : le portail carto souverain de l’IGN

Samsung Messages s’arrete en juillet : sauvegardez vos SMS

Google : le nouveau CAPTCHA gestuel deja contourne

GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé

Cartes.gouv.fr : le portail carto souverain de l’IGN

Samsung Messages s’arrete en juillet : sauvegardez vos SMS

Police de Vancouver : l’IA génère une fausse image de saisie

IBM dévoile une puce 0,7 nm à 100 milliards de transistors

SharkEye : drone IA qui repère les requins avant l’attaque

BYD : la voiture chinoise qui enterre Tesla en Europe

GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé

Un plateau technique qui s’élève

Trois modèles, zéro accès public

Publications similaires :

Connexes Postes