Inicio Herramientas y Apps IA OpenAI Prepara Modo Control de Voz en Tiempo Real para Codex

OpenAI Prepara Modo Control de Voz en Tiempo Real para Codex

Por

19/06/2026

193

Llevamos décadas tecleando código como si no hubiera un mañana, pero la industria tiene otros planes para nuestras manos. Tras meses de rumores, filtraciones en foros y pistas sueltas escondidas en repositorios, por fin vemos la jugada completa. OpenAI está preparando la llegada de voz en tiempo real a Codex, y de paso, dejando entrever el inminente lanzamiento de un modelo que va a dar mucho de qué hablar: GPT-Bidi-1. Y ojo, porque esto cambia las reglas del juego por completo.

Si analizamos lo que está pasando entre bambalinas, la cosa tiene bastante miga técnica. Hasta ahora, interactuar por voz con una IA era exactamente igual que usar un walkie-talkie: tú hablas, sueltas el botón, la máquina procesa en la nube y finalmente responde. Pero el nuevo modelo GPT-Bidi-1 se basa en un diseño puramente bidireccional. Esto significa que el sistema puede escuchar y hablar de forma simultánea, eliminando los molestos turnos rígidos de conversación. Como si estuvieras debatiendo con un colega de carne y hueso.

Dicho en lenguaje de andar por casa, se acabó la espera incómoda frente a la pantalla. Podrás interrumpir al asistente en mitad de una frase si ves que el script de Python que te está dictando no tiene ningún sentido o se está yendo por las ramas. La IA simplemente recalcula, ajusta el prompt internamente y sigue por donde le pides. Ni se inmuta.

Hay que entender la tremenda complejidad de lo que esto supone a nivel de servidores. Entrenar a un LLM para procesar audio de entrada mientras genera un flujo continuo de voz exige una latencia bajísima y un rediseño radical en su arquitectura de inferencia. No estamos ante un simple lavado de cara de la app. Es un salto evolutivo bestial.

También te puede interesar:El Fallo de Codex de ChatGPT que Desgasta tu SSD en Menos de un Año

El plan maestro: Fusionar Codex y ChatGPT

Pero la verdadera chicha de esta filtración no se queda solo en el modelo acústico. Dentro de la aplicación de programación se ha detectado una nueva sección con herramientas exclusivas para desarrolladores. La idea de OpenAI es permitirte mantener el canal de voz siempre activo de fondo mientras compilas, depuras o ejecutas tu código. Incluso han metido una opción para asignar un atajo de teclado y una palabra de activación tan directa como “Hey Chat”. Fricción absoluta cero.

Y aquí viene el detalle que confirma la ambiciosa estrategia de la compañía de Sam Altman. Han activado un ajuste que te permite fijar las sesiones nuevas a un único hilo continuo, al que internamente llaman hilo orquestador persistente. Básicamente, la inteligencia artificial recuerda todo el contexto de tu proyecto a lo largo del día sin que tengas que abrir y cerrar chats nuevos cada vez que te atascas en un bug. Un alivio inmenso para cualquier programador de trinchera.

Para rematar la faena visual, la interfaz se está llenando de guiños muy familiares para los usuarios asiduos. Un control recién descubierto, que hasta hace nada era código muerto, ahora permite superponer avatares en la pantalla. Puedes elegir entre el mítico Orb o la nueva mascota animada de la compañía. A esto se le suma la aparición de una entrada en la barra lateral llamada “Biblioteca”, casi calcada a la que ya usamos en el cliente web tradicional de ChatGPT.

Todos estos elementos compartidos apuntan en una única e irremediable dirección: OpenAI quiere unificar Codex y ChatGPT en una sola experiencia. El hecho de que usen el término «Chat» en lugar de «Codex» para despertarlo nos chiva que quieren que la interfaz sea idéntica, ya sea para redactar un correo o para levantar un servidor entero. Así de simple.

También te puede interesar:El Fallo de Codex de ChatGPT que Desgasta tu SSD en Menos de un Año

También te puede interesar:OpenAI Prueba Regalar Créditos de Codex como Estrategia de Crecimiento

Anthropic no se queda de brazos cruzados

Evidentemente, en este sector nadie da puntada sin hilo, y la competencia huele la sangre. Mientras OpenAI prepara este despliegue por todo lo alto, su mayor rival está moviendo ficha por la puerta de atrás. Anthropic ha empezado a introducir soporte multilingüe y una función táctil de pulsar para hablar en el modo de voz de Claude. Lo están haciendo muy a su estilo: cero ruido mediático, sin notas de prensa rimbombantes y esperando a ver cómo respira el mercado.

Si rascamos un poco bajo la superficie de estas pruebas silenciosas, vemos que solo son un pequeño aperitivo. Los rumores más fundamentados sugieren que tanto el modelo subyacente de Claude como todo su pipeline de procesamiento de audio van a recibir actualizaciones masivas muy pronto. Siguen su táctica habitual de no vender humo hasta que la tecnología sea perfectamente estable.

La lectura que nos deja todo este movimiento de piezas es fascinante. El teclado y el ratón están empezando a ceder terreno ante el micrófono de una forma que hace apenas un año nos parecería un disparate. Tener un asistente que te dicta, te corrige y te escucha en tiempo real no es solo una mejora cosmética, es una redefinición total de la productividad. Veremos quién gana la carrera por dominar el audio en nuestros ordenadores, pero la pelota está ahora mismo en el tejado de OpenAI.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

0 0 votos

Valoración del artículo

0 Comentarios

Más Antiguos

Más Nuevos Más Votados

OpenAI Prepara Modo Control de Voz en Tiempo Real para Codex

El plan maestro: Fusionar Codex y ChatGPT

Anthropic no se queda de brazos cruzados

OTRAS NOTICIAS

Dos de Cada Tres Españoles Consultan la Inteligencia Artificial Sobre Su Salud Según Manuel...

Thinking Machines Inkling-Small: Modelo de IA Abierto, Eficiente y Multimodal

¿Puede Pangram Detectar Textos de ChatGPT? Su Nuevo Modelo Promete un 99 % de...

Gemini Spark Aterriza en Chrome y usa tu Cuenta de Google para Automatizar Tareas...

TE INTERESA

Cómo Reducir Consumo de Tokens en Claude Code con un Truco...

Incluso más noticias

Así es el Gran Hyperion de Meta, su Megacentro de Datos...

Microsoft Prueba Modelo de Voz en Tiempo Real de MAI Realtime

Google Reduce la Brecha de Funciones Entre Gemini de Escritorio y...

CATEGORÍA POPULAR

DOMINA LA IA EN 3 MINUTOS AL DÍA (GRATIS)

Suscríbete a nuestra Newsletter Diaria sobre IA:

You have Successfully Subscribed!

ASSERT de Microsoft, la Herramienta para Pruebas de Comportamiento en Agentes...

Conoce al Ingeniero que Convierte a ChatGPT y Codex de un...

Google Cierra Pixel Studio y Lleva la Creación de Imágenes en...