OpenAI s’apprête à lancer GPT-Bidi-1, un modèle vocal inédit pour ChatGPT capable d’écouter et de parler en même temps. Repéré dans le code de l’application par TestingCatalog, ce nouveau mode de conversation promet des échanges bien plus naturels et fluides.
Depuis le lancement du mode vocal de ChatGPT il y a deux ans, les utilisateurs ont appris à composer avec ses limites : temps de latence gênants, interruptions maladroites, oublis de contexte en cours de route. OpenAI semble avoir pris la mesure du problème. Selon les informations de TestingCatalog, relayées par Les Numériques, et confirmées par la version bêta en cours de déploiement, la firme de Sam Altman s’apprête à déployer GPT-Bidi-1, un modèle vocal bidirectionnel qui change la donne.
Là où les assistants vocaux conventionnels fonctionnent en mode question-réponse figé, Bidi 1 introduit une fluidité inédite. L’utilisateur peut interrompre l’IA, reformuler sa demande en cours de phrase, ou changer de sujet sans attendre la fin d’une réponse longue. À l’usage, c’est toute l’expérience d’interaction vocale qui bascule du robot au collaborateur.
Ce que change Bidi 1 dans la conversation
Concrètement, Bidi 1 peut prendre la parole pendant que vous parlez tout en continuant à vous écouter. L’IA gère les interruptions et les pauses sans couper la parole, calcule ses réponses en temps réel et bascule d’une tâche à l’autre au milieu d’une phrase. Pour les professionnels qui utilisent ChatGPT comme assistant vocal quotidien, que ce soit pour la prise de notes automatique, les résumés de réunions ou le brainstorming à voix haute, la différence sera immédiatement perceptible.
Autre amélioration de poids : la mémoire de contexte. Là où le modèle vocal actuel oublie régulièrement ce qui a été dit trois échanges plus tôt, Bidi 1 conserve le fil d’une conversation longue sans perdre les informations clés partagées en cours de route. Une fonctionnalité précieuse pour des sessions de travail prolongées où l’IA doit mobiliser des éléments éparpillés dans la discussion.
Déploiement imminent, interface repensée
D’après les captures découvertes dans l’application, Bidi 1 apparaîtra comme une option distincte dans les réglages vocaux. Pour le différencier des modes actuels, l’interface adopterait une bulle vocale jaune contre du noir et du bleu pour les modèles standard et avancé. Le déploiement public serait en cours auprès d’une poignée d’utilisateurs avant une sortie élargie programmée dans les jours qui viennent.
Ce lancement intervient dans un contexte de concurrence intense. Claude d’Anthropic, Gemini de Google et Perplexity grignotent des parts d’audience. Le mode vocal en temps réel est devenu un champ de bataille stratégique. Google a déjà démontré avec Gemini Live une capacité d’interruption naturelle. De son côté, Anthropic pousse Claude à intégrer des fonctionnalités vocales toujours plus poussées. OpenAI riposte avec Bidi 1, mais aussi avec GPT-5.6, une version Pro qui devrait arriver concomitamment pour les abonnés les plus exigeants.
Le nom « Bidi », contraction de « bidirectionnel », signale un changement de paradigme dans la conception des interfaces vocales. Là où les approches actuelles empilent micro-services de reconnaissance, de traitement et de synthèse, Bidi 1 unifie le flux dans un modèle unique capable de gérer entrée et sortie en parallèle. Cette architecture ouvre la voie à des interactions plus réactives, une rupture qui pourrait redéfinir les standards des assistants vocaux dans le secteur.
Côté abonnement, le modèle vocal bidirectionnel devrait être accessible aux utilisateurs ChatGPT Plus et Pro. Les utilisateurs de la version gratuite devront probablement patienter, OpenAI réservant ses innovations les plus coûteuses en calcul à sa base d’abonnés payants, conformément à la stratégie de monétisation accélérée poursuivie depuis le début de l’année 2026.
Un pari technique et stratégique
Techniquement, le modèle Bidi 1 repose sur une architecture différente des modèles vocaux actuels, qui fonctionnent par tours successifs : enregistrement, transcription, traitement, génération, lecture. La bidirectionnalité impose de maintenir simultanément l’analyse du flux entrant et la génération du flux sortant, une contrainte de calcul qui a longtemps freiné les assistants vocaux sur mobile. OpenAI semble avoir résolu l’équation, au moins en version bêta testée sur quelques milliers d’utilisateurs.
Cette capacité technique n’est pas anodine : elle implique une gestion fine des ressources GPU en temps réel, un défi d’orchestration de modèle qui a repoussé plusieurs fois l’échéance chez les concurrents. Google a mis près d’un an à stabiliser Gemini Live après sa première démonstration. Le fait qu’OpenAI parvienne à une version quasi-finale suggère que les progrès sur les architectures de streaming vocal sont plus rapides que prévu.
Pour les utilisateurs français de ChatGPT, Bidi 1 arrivera probablement d’abord en anglais avant une extension aux autres langues. Les professionnels tech y verront surtout la promesse d’un outil enfin utilisable en situation de travail réel, sans la gêne des temps d’attente ou des reformulations maladroites. Reste à voir si la fiabilité du modèle tient le choc en condition réelle et si les temps de réponse restent acceptables sans connexion filaire stable.
