Inicio Herramientas y Apps IA OpenAI Prepara Nuevo Modo de Voz Conversacional en ChatGPT Potenciado con GPT-Bidi-1...

OpenAI Prepara Nuevo Modo de Voz Conversacional en ChatGPT Potenciado con GPT-Bidi-1 Avanzado

Por

17/06/2026

306

¿Cuántas veces has intentado interrumpir a la inteligencia artificial y el sistema simplemente se congela o corta la respuesta de forma torpe? OpenAI sabe perfectamente que esa fricción arruina por completo la experiencia de usuario. Tras meses de rumores silenciosos en foros de desarrolladores y filtraciones de código, por fin sabemos en qué están trabajando en secreto. Y te adelanto que no es una actualización cosmética ni un simple parche. La compañía prepara el salto tecnológico más grande para el modo de voz de ChatGPT. Se acabó el incómodo efecto walkie-talkie. Llega la bidireccionalidad nativa al mercado de consumo.

GPT-Bidi-1: La arquitectura que escucha y habla al mismo tiempo

El nombre en clave que manejan los ingenieros ahora mismo es GPT-Bidi-1. Quizás esta nomenclatura provisional no te suene a gran cosa, pero esconde un rediseño completo de la arquitectura del modelo de lenguaje. Básicamente, el término hace referencia a un sistema capaz de procesar la entrada de tu micrófono y generar la salida de audio de forma totalmente paralela y sin bloqueos. Hasta ahora, los asistentes de voz funcionaban bajo un paradigma secuencial: tú hablas, la máquina te escucha, procesa, genera texto, lo pasa a voz y finalmente responde. Un proceso lento, rígido y profundamente antinatural.

Imagina que le pides que te resuma un informe técnico complejo, pero a los diez segundos te das cuenta de que no va por el camino correcto. Le hablas por encima. Le corriges en pleno monólogo. Y el sistema no necesita detener su motor de inferencia y reiniciar todo el proceso. Simplemente asimila tu interrupción, recalcula el contexto y ajusta su respuesta verbal en ese mismo instante.

New OpenAI voice model "GPT-Bidi-1"

Coming soon with a "major leap in intelligence"

– The next generation of Voice
– More natural conversations, powered by our next-generation voice model https://t.co/mvH9TSisgO pic.twitter.com/Ka3Mk2LpXV
También te puede interesar:GPT-Bidi-1 de OpenAI: IA de Voz Bidireccional que Compite con Gemini
— M1 (@M1Astra) June 16, 2026

Evidentemente, conseguir algo así a nivel de hardware y software requiere superar barreras brutales de latencia y sincronización. Hace poco, lidiar con interrupciones en tiempo real sin romper el hilo de la conversación parecía una quimera exclusiva de los laboratorios tecnológicos. Y es que los rastros de este potente modelo ya han aparecido integrados en el código fuente de la versión web y en la propia aplicación del móvil. Todo esto nos indica un despliegue muy cercano para los usuarios normales. Así de claro.

Cerrando la brecha: el audio necesita alcanzar a los LLMs de texto

Pero claro, hay un motivo económico y estratégico gigantesco para forzar esta actualización justo ahora. Existe una fractura evidente de rendimiento dentro de los propios productos de la compañía. A día de hoy, sus modelos de texto están operando en niveles de razonamiento puro que internamente rozan la generación GPT-5.5. Son auténticas bestias del análisis computacional. Por el contrario, la tecnología de voz comercial se había quedado anclada en una versión mucho más conservadora, dependiente de sistemas más antiguos.

🚨 OpenAI is planning to release GPT-Bidi-1 very soon

Their next-generation voice model for more natural conversations

[Final naming of the model might change]

h/t to @M1Astra from DevMode pic.twitter.com/brmD8bUgqb
— Chetaslua (@chetaslua) June 16, 2026

Hablar con la IA actualmente significa acceder a un «cerebro» menos capaz que el que usas al escribirle un prompt largo en tu ordenador. Y esto frena de golpe su adopción masiva. Si miramos los números de inversión y los movimientos recientes, la empresa liderada por Sam Altman tiene una hoja de ruta obsesionada con el audio. Quieren que la voz sea el método por defecto y sin fricciones para interactuar con las máquinas a corto plazo.

A ello se le suma que toda esta estrategia encaja a la perfección con la futura integración de OpenAI en dispositivos de hardware dedicados y la creación de agentes de soporte técnico automáticos. Con este nuevo modelo, no solo prometen que las pausas incómodas desaparezcan por fin de nuestras llamadas. Pretenden dar un salto cualitativo enorme en el razonamiento sonoro. Una locura absoluta.

Niveles de inteligencia a la carta y un nuevo rediseño visual

En concreto, ¿cómo nos va a llegar esta tecnología a nuestro teléfono del día a día? La información filtrada apunta a que los desarrolladores no forzarán una migración automática e invisible. Al principio, los usuarios podrán elegir manualmente entre el actual Advanced Voice Mode y este modelo de nueva generación, bautizado temporalmente en la interfaz como Bidi (Latest). Te dan el control total sobre qué motor gasta recursos en tu dispositivo.

Por si fuera poco, el sistema incluirá diferentes engranajes para ajustar el consumo y la velocidad de los servidores. Habrá tres niveles de inteligencia configurables para la voz, exactamente igual que hacemos con las respuestas de texto: High, Medium e Instant.

Es decir, si necesitas que la aplicación te traduzca una frase rápida mientras paseas por una ciudad extranjera, activarás el modo instantáneo para priorizar la máxima fluidez. Mientras que si estás debatiendo sobre una estructura de programación compleja o un problema matemático, usarás el modo alto. Esto le otorgará a la IA mayor tiempo de cómputo para no dar respuestas equivocadas.

Además, la interfaz de usuario ya se está preparando para la llegada de esta tecnología. La reciente actualización visual que permite mover la burbuja flotante de voz hacia el centro de la pantalla de tu móvil es solo un anticipo táctico del lavado de cara que sufrirá la aplicación. Todo está orquestado.

Aunque todo huele a que el lanzamiento es inminente y los servidores ya se están calentando, todavía no sabemos el día exacto de salida ni su nombre comercial definitivo. Lo que es indudable es que la forma en la que conversamos con nuestros dispositivos está a punto de dar un giro radical y definitivo. La pelota está en el tejado de OpenAI, y veremos si la competencia es capaz de seguirles este ritmo infernal.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

0 0 votos

Valoración del artículo

0 Comentarios

Más Antiguos

Más Nuevos Más Votados

OpenAI Prepara Nuevo Modo de Voz Conversacional en ChatGPT Potenciado con GPT-Bidi-1 Avanzado

GPT-Bidi-1: La arquitectura que escucha y habla al mismo tiempo

Cerrando la brecha: el audio necesita alcanzar a los LLMs de texto

Niveles de inteligencia a la carta y un nuevo rediseño visual

OTRAS NOTICIAS

Ante los Incendios de Madrid, Starlink Activa Mensajería Gratis por Satélite en Zonas Afectadas

Jeffrey Epstein Protagoniza Polémico Montaje Contra las Ray-Ban Meta con una Crítica de Fondo

Sherpa.ai Impulsa la IA Soberana en España con Inversión del Estado

Sam Altman Advierte Que la IA Podría Asumir Hasta el 40 % del Trabajo...

TE INTERESA

Incluso más noticias

Juez Afirma que la Administración Trump Sigue sin Demostrar que Anthropic...

Claude Protagoniza uno de los Mayores Tropiezos de la IA en...

Claude Opus 5 Genera un Comando Fatal y Borra una Base...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

Manus AI Presenta Scheduled Tasks 2.0, la Herramienta para Automatizar Tareas...

Amazon Integra Nuevos Productos de OpenAI en AWS tras Fin de...

IA de Reelful Convierte tus Fotos y Vídeos en Reels de...