Fermer Le Menu
    Facebook X (Twitter) Instagram
    Learnup
    • Tech
    • B2B
    • Marketing
    • Actu
    • Divertissement
    Learnup
    La maison»Technologie»GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé
    Technologie

    GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé

    Fabien DouéPar Fabien Doué29 juin 2026Aucun commentaire4 Minutes de Lecture
    Facebook Twitter Pinterest LinkedIn Tumblr E-mail
    Partager
    Facebook Twitter LinkedIn Pinterest E-mail

    OpenAI a publié les premiers benchmarks officiels de GPT-5.6. La nouvelle famille de modèles, déclinée en trois variantes, signe des progrès mesurables en programmation, cybersécurité et sciences. Mais l’accès reste verrouillé par Washington, qui contrôle qui peut y toucher.

    Deux mois après GPT-5.5, OpenAI remet une couche avec GPT-5.6. Le constructeur publie cette fois des chiffres précis pour répondre à la pression concurrentielle d’Anthropic et de son modèle Mythos. Le modèle haut de gamme, baptisé Sol, atteint 88,8 % sur TerminalBench 2.1, un benchmark concret qui mesure la capacité d’un agent IA à réaliser des tâches complètes dans un terminal Linux : installation de paquets, configuration de serveurs, exécution de scripts complexes. C’est 5,4 points de mieux que GPT-5.5 (83,4 %), et la variante Sol Ultra culmine même à 91,9 %, devançant Claude Mythos 5 sur cette épreuve. Le gain est concret : OpenAI assure que son modèle mène davantage de tâches techniques jusqu’au bout, avec moins d’intervention humaine.

    TerminalBench 2.1 est devenu un étalon de référence pour comparer les capacités agentiques des LLM. Contrairement à des benchmarks plus théoriques comme MMLU ou HumanEval, il évalue la capacité d’un modèle à enchaîner des opérations réelles dans un environnement système, ce qui le rapproche des usages concrets en entreprise. Le score de Sol Ultra, à 91,9 %, signifie que le modèle parvient à mener à bien neuf tâches sur dix sans erreur bloquante, un niveau qui le rend utilisable pour des workflows d’administration système en conditions réelles.

    Un plateau technique qui s’élève

    Les progrès ne se limitent pas au terminal. En biologie computationnelle, Sol fait mieux que GPT-5.5 sur GeneBench v1 tout en générant moins de tokens, ce qui ouvre des perspectives pour la recherche pharmaceutique et la modélisation génétique. En cybersécurité, le résultat est plus contrasté. Sur ExploitBench, dédié à la recherche et l’exploitation de vulnérabilités, GPT-5.6 Sol se rapproche de Mythos Preview en utilisant environ trois fois moins de tokens de sortie, un gain d’efficacité significatif pour les équipes de sécurité. Claude conserve toutefois une avance sur ce test spécialisé.

    GPT-5.6 introduit aussi deux niveaux de raisonnement supplémentaires pour s’adapter à la complexité des requêtes. Max donne plus de temps de calcul au modèle pour traiter un problème complexe, décomposer les étapes et vérifier chaque résultat avant de passer à la suite. Ultra répartit le travail entre plusieurs sous-agents qui collaborent sur des sous-tâches, une architecture qui rappelle les systèmes multi-agents déployés dans l’industrie. La gamme s’élargit avec Terra, annoncé comme deux fois moins cher que GPT-5.5 à performances comparables sur les usages courants, et Luna, conçu pour les traitements rapides et économiques. Cette segmentation tarifaire copie le modèle d’Anthropic, qui propose déjà Mythos et Fable à des niveaux de prix différenciés selon les capacités.

    Trois modèles, zéro accès public

    Ces avancées restent hors de portée du grand public. GPT-5.6 est d’abord disponible via l’API et Codex pour un petit groupe de partenaires dans le cadre d’un lancement progressif demandé par le gouvernement américain. OpenAI dit avoir consacré plus de 700 000 heures GPU A100 équivalent au red-teaming automatisé pour renforcer ses garde-fous. L’entreprise précise aussi que Sol ne franchit pas son seuil Cyber Critical : lors de tests sur Chromium et Firefox, il a identifié des briques d’exploitation sans produire de chaîne d’attaque complète dans les conditions évaluées.

    La nervosité de Washington s’explique par la nature duale de ces modèles. Comme le souligne KultureGeek, OpenAI sait que Sol peut devenir un outil précieux pour l’analyse de vulnérabilités, à l’instar de Claude Fable 5 et Mythos, mais aussi un vecteur potentiel d’attaques automatisées si son raisonnement avancé est détourné. Ce feu vert sélectif transforme GPT-5.6 en disponibilité limitée : le gouvernement américain valide les acteurs autorisés à utiliser le modèle dans cette première phase. Pour l’industrie de l’IA générative, le précédent est majeur, car il consacre une intervention directe de Washington dans la mise sur le marché d’un produit privé.

    Ce cadrage intervient alors qu’OpenAI a revu à la baisse en avril son propre framework de préparation aux risques. À mesure que les modèles gagnent en autonomie et en profondeur de raisonnement, l’entreprise accélère commercialement tandis que les États-Unis exigent désormais un droit de regard direct sur les conditions d’accès. OpenAI évoque une ouverture plus large dans les prochaines semaines, sans calendrier précis pour la France ou le reste de l’Europe. Les développeurs européens devront patienter, comme souvent dans cette guerre de l’IA où la souveraineté technologique s’invite dans le déploiement des modèles les plus avancés. Pendant ce temps, la course s’accélère entre les laboratoires américains. Anthropic prépare déjà la prochaine version de Mythos, Google peaufine Gemini 3 et Meta continue d’ouvrir ses modèles Llama. OpenAI vient de placer un pion technique solide avec GPT-5.6. Reste à savoir quand les développeurs français pourront vraiment l’exploiter.

    Publications similaires :

    1. GPT-5.6 : Washington controle l’acces a l’IA d’OpenAI
    2. Comment supprimer le contrôle parental sur Xbox 360 ?
    3. Guide pratique pour restaurer l’accès à votre compte Instagram
    4. Comment retrouver l’accès à son compte Instagram après un piratage, un blocage ou un mot de passe oublié
    Part. Facebook Twitter Pinterest LinkedIn Tumblr E-mail
    Fabien Doué
    • Site web

    Un passionné de tech qui suit l'actualité geek de près ! Je suis aussi formateur en robotique et en IA.

    Connexes Postes

    Google : le nouveau CAPTCHA gestuel deja contourne

    29 juin 2026

    Cartes.gouv.fr : le portail carto souverain de l’IGN

    29 juin 2026

    Samsung Messages s’arrete en juillet : sauvegardez vos SMS

    29 juin 2026
    Laisser Une Réponse Annuler La Réponse

    Google : le nouveau CAPTCHA gestuel deja contourne

    29 juin 2026

    GPT-5.6 Sol : 88,8 % sur TerminalBench, accès contrôlé

    29 juin 2026

    Cartes.gouv.fr : le portail carto souverain de l’IGN

    29 juin 2026

    Samsung Messages s’arrete en juillet : sauvegardez vos SMS

    29 juin 2026

    Police de Vancouver : l’IA génère une fausse image de saisie

    29 juin 2026

    IBM dévoile une puce 0,7 nm à 100 milliards de transistors

    28 juin 2026

    SharkEye : drone IA qui repère les requins avant l’attaque

    28 juin 2026

    BYD : la voiture chinoise qui enterre Tesla en Europe

    28 juin 2026
    © 2026
    • CONTACT
    • Privacy Policy

    Type ci-dessus et appuyez sur Enter pour la recherche. Appuyez sur Esc pour annuler.