La Voz Como Protagonista de ChatGPT en 2026 Según OpenAI

| enero 4, 2026 19:57

RESUMIR ARTÍCULO CON CHATGPT RESUMIR ARTÍCULO CON PERPLEXITY

OpenAI está moviendo piezas por dentro para que ChatGPT deje de sonar a “asistente” y empiece a sonar a algo mucho más cercano a una persona. No es un matiz estético: la compañía prepara para el primer trimestre de 2026 un nuevo modelo de voz mucho más natural, capaz de mantener conversaciones reales, de esas en las que te pisas al hablar y no pasa nada.

La ambición no es mejorar el audio como quien pule una función más. La ambición es convertir el audio en la interfaz principal en muchos contextos y relegar la pantalla a un segundo plano cuando no sea estrictamente necesaria.

En los últimos dos meses, OpenAI ha unificado equipos de ingeniería, producto e investigación con un objetivo único: revolucionar sus modelos de audio. Es una reorganización que no huele a experimento, sino a cambio de rumbo serio. Y según un reporte de The Information, lo que viene apunta a un salto grande, no incremental.

OpenAI quiere que la voz deje de funcionar por turnos, como si fuera un walkie-talkie

El nuevo modelo de voz estaría diseñado para gestionar interrupciones durante la conversación. Si el usuario corta a la IA, cambia de idea a mitad de frase o se corrige sobre la marcha, el sistema no debería colapsar ni quedarse en silencio como si hubiese perdido el hilo.

El gran problema de casi todos los asistentes actuales no es la calidad del timbre, sino el ritmo. Hablas, paras, esperas, responde, vuelves a hablar… y acabas con la sensación de estar atrapado en una demo infinita.

OpenAI quiere romper ese esquema. El objetivo es que el modelo pueda hablar mientras el usuario habla, reaccionar en tiempo real y sostener una interacción más simultánea, más humana, más parecida a una conversación que a una cadena de comandos.

También te puede interesar:OpenAI Paga 1,5 Millones En Acciones a Cada Empleado Para Que No Se Vaya

Esto no es solo una cuestión de UX bonita. A nivel técnico implica lidiar con solapamiento de audio, detección dinámica de turnos, latencia bajísima y un sistema que no se rompa cuando hay ruido, muletillas, dudas o cambios de tema. Si OpenAI logra que la voz se sienta indistinguible de la humana, el uso se dispara, porque ya no “usas una función”: conversas.

La reorganización interna deja una pista: ChatGPT no es el destino, es el vehículo

OpenAI no estaría moviendo equipos solo para que ChatGPT dicte mejor. El plan suena a algo más ambicioso: hacer del audio la puerta de entrada a todo el ecosistema.

La iniciativa está liderada por Kundan Kumar, investigador que llegó desde Character.AI este verano. No es un perfil casual: viene de trabajar con conversaciones largas, personalidad persistente y continuidad en el diálogo.

Nuevos Dispositivos Inteligentes de OpenAI: Altavoz, Gafas, Grabadora y Pin

Poner el audio en el centro, sin embargo, no es una idea nueva. La primera generación de altavoces inteligentes prometía un futuro manos libres, conversacional y omnipresente. Una década después, la realidad es mucho más modesta: temporizadores, música y poco más.

OpenAI cree que ahora sí hay ingredientes que antes no existían. Modelos más capaces, mejor comprensión del contexto y una capa de razonamiento que permite sostener diálogos complejos sin venirse abajo a la tercera pregunta.

El punto de inflexión tiene nombre propio: Jony Ive y un cheque de 6.500 millones

En mayo de 2025, OpenAI compró io Products Inc., la start-up de Jony Ive, por 6.500 millones de dólares. No es una cifra que pagues por postureo estratégico; es una apuesta clara por una dirección concreta.

También te puede interesar:OpenAI Dispara su Gasto a 17.000 Millones en 2026: ¿Genialidad o Ruina Anunciada?

Ive no es solo un diseñador famoso. Es una de las personas que más ha influido en cómo se siente usar tecnología a diario. Ahora lidera las responsabilidades creativas en OpenAI con un equipo de 55 personas, lo que deja claro que no se trata de un cameo ni de un rol simbólico.

La filosofía detrás de este movimiento es reducir la dependencia de la atención visual. Diseñar interfaces que funcionen sin exigir que mires constantemente una pantalla, y que encajen mejor en la vida cotidiana sin absorberla.

El plan de hardware: altavoz sin pantalla, gafas… y un bolígrafo que lo oye todo

OpenAI contempla varios formatos de producto: altavoces sin pantalla, gafas inteligentes y un dispositivo con forma de bolígrafo operado íntegramente por voz. El enfoque es claro: algo siempre contigo, pero sin el ritual permanente del móvil.

Un dato industrial relevante es que Foxconn fabricará en Vietnam el primer dispositivo. Se rumorea que será un “bolígrafo consciente del contexto”, capaz no solo de escuchar, sino de entender dónde estás y qué ocurre a tu alrededor.

El calendario es agresivo. Nuevo modelo de audio antes de la primavera de 2026, primer dispositivo dedicado aproximadamente un año después y lanzamiento de hardware “solo por voz” apuntando a mediados de 2027.

Este movimiento implica un cambio de identidad profundo. OpenAI pasaría de ser principalmente proveedor de software a competir en electrónica de consumo. Y ahí no basta con un modelo brillante: entran en juego batería, privacidad, fabricación, logística, devoluciones y todos los problemas reales del producto físico.

La tendencia está clara: Meta, Google y Tesla también empujan hacia el “habla y ya”

OpenAI no está sola en esta obsesión por el audio. Meta ha integrado cinco micrófonos en sus Ray-Ban Meta 2 para aislar voces en entornos ruidosos, construyendo un “input” pensado para que la IA entienda al usuario en la calle.

SAM Audio: Herramienta Profesional de Meta con IA Gratis para Edición de Sonido

Google, por su parte, está probando resúmenes de búsqueda en audio, apostando por la idea de “no mires resultados, escúchalos”. Tesla planea integrar Grok en sus coches para controlar funciones del vehículo de forma conversacional, convirtiendo al automóvil en un altavoz con ruedas.

El fantasma del Humane AI Pin: la IA sin pantalla también puede salir fatal

Hay, sin embargo, un antecedente reciente que pesa como advertencia. El Humane AI Pin quemó cientos de millones, decepcionó a los compradores y terminó como un producto a medio gas que incluso dejaría de funcionar tras la venta de la empresa a HP.

No es un caso aislado. Varios colgantes con asistentes de voz llevan años en el mercado y siguen siendo más curiosidad tecnológica que necesidad real.

El gran reto no es que la IA hable bien. El reto es si la gente quiere hablar con sus dispositivos cuando no hay una pantalla que confirme lo que está pasando. Si OpenAI clava la naturalidad, las interrupciones y la simultaneidad, quizá por fin estemos más cerca de una conversación real que de un menú de comandos disfrazado de voz.

Tocará esperar para ver si 2026 es el año en el que hablarle a la tecnología deja de dar pereza.

OpenAI

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net

Más de OpenAI

La Newsletter Diaria Sobre Inteligencia Artificial. Además: Portal de Noticias, Tutoriales, Tips y Trucos de ChatGpt, Openai e Inteligencia Artificial.

Nuestra web está alojada en: