Imagínate que estás hablando con ChatGPT por voz y, al mismo tiempo, vas viendo en la pantalla lo que te contesta, con texto claro e incluso con imágenes o mapas que aparecen en tiempo real. Esa es justo la idea del nuevo diseño de ChatGPT: juntar voz, texto e imágenes en la misma pantalla para que no tengas que saltar entre modos raros ni ventanas separadas.
Con este cambio, la experiencia se parece más a una charla natural, en la que puedes escuchar, leer y revisar lo que ha pasado en el chat sin perder el hilo. Hay algunos detalles importantes sobre cómo se activa el modo de voz, cómo se cierra y cómo puedes volver al diseño antiguo si te resultaba más cómodo. Vamos a verlo paso a paso para que sepas qué ha cambiado y cómo sacarle partido al nuevo modo de voz integrado de ChatGPT.
La novedad principal es que el modo de voz integrado en ChatGPT ya no vive en una pantalla aparte, sino dentro del propio chat. Hablas con el asistente, ves las respuestas escritas y sigues la conversación como si fuera un chat normal, solo que usando tu voz. Todo ocurre en una sola vista, sin transiciones extrañas ni cortes visuales.
Cuando activas esta nueva experiencia de voz, vas a poder escuchar a ChatGPT mientras lees al mismo tiempo lo que te contesta en texto. Esto te ayuda mucho si pierdes una frase o si quieres revisar un dato concreto, porque ya no dependes solo del audio. La sensación es más cómoda y controlada, sobre todo en consultas largas donde necesitas tener todo claro en pantalla.
Una de las grandes mejoras del modo de voz de ChatGPT es que las respuestas ya no se quedan solo en sonido. Ahora, mientras hablas, la herramienta va escribiendo en la pantalla todo lo que te responde, línea a línea, igual que en un chat normal. Si en mitad de una explicación te despistas, simplemente miras hacia la pantalla y retomas el hilo.
También te puede interesar:OpenAI Permitirá a Desarrolladores Publicar Apps y Flujos de Trabajo en ChatGPTAdemás de texto, la nueva interfaz permite que veas en tiempo real los elementos visuales que el asistente comparta contigo. Vas a poder observar imágenes, mapas u otros contenidos gráficos sin salir de la conversación de voz. Es muy útil, por ejemplo, si pides una ruta, una comparación visual o un esquema rápido y necesitas tenerlo todo delante mientras sigues hablando.
Si usabas el modo de voz antes de esta actualización, recordarás que, al activarlo, se abría una pantalla diferente, con una interfaz centrada en un círculo azul animado. Esa era la “cara” del modo de voz separado de ChatGPT, que ocupaba toda la vista y se notaba como un modo independiente del chat de texto tradicional.

En esa pantalla anterior tenías varias opciones específicas: un botón de silencio para mutear el micrófono, una función para grabar vídeo en directo y una X para cerrar y volver al chat solo de texto. Todo estaba pensado para una experiencia de voz dedicada, pero eso también tenía desventajas claras para quien quería combinar voz y lectura.
La limitación más fuerte del diseño viejo era que solo podías escuchar las respuestas de ChatGPT. Mientras estabas en ese modo de voz separado, no se mostraba el texto de lo que el asistente iba diciendo, así que no había manera de leer la respuesta mientras sonaba. Si perdías parte de una frase o un dato, la situación se complicaba bastante.
Para revisar una respuesta hablada, tenías que salir del modo de voz independiente y volver al historial del chat, donde sí aparecía todo como texto. Ese cambio de vista cortaba el ritmo de la conversación y hacía que la experiencia pareciera un poco forzada. El nuevo modo de voz integrado en la interfaz de ChatGPT viene justo a corregir este problema, uniendo voz y texto en un solo lugar.
Con el rediseño, la herramienta se siente más natural, porque puedes pasar de hablar a escribir sin romper la conversación. El nuevo diseño de ChatGPT con voz, texto e imágenes permite que el chat sea continuo, con todo visible en la misma pantalla. No tienes que elegir entre “solo voz” o “solo texto”, ya que ahora todo convive en paralelo.
También te puede interesar:OpenAI recauda $6.6 mil millones y alcanza una valoración de $157 mil millonesMientras mantienes una conversación por voz, vas a poder desplazarte por el historial para revisar mensajes anteriores sin que el audio se corte. Esto es muy útil si estás siguiendo instrucciones paso a paso, comprobando una explicación larga o recordando algo que preguntaste antes. Todo queda más ordenado y tú mantienes el control de cada parte del diálogo.
Una mejora clave de este nuevo modo de voz de ChatGPT en tiempo real es la facilidad para alternar entre hablar y escribir. Puedes lanzar una pregunta con tu voz, matizarla por escrito y luego volver a hablar, todo en el mismo hilo. No hay cambios bruscos ni recargas completas de la interfaz, solo un flujo continuo de interacción.
Este enfoque híbrido te viene muy bien en situaciones mixtas. Por ejemplo, puedes dictar una consulta larga por voz porque es más rápido, pero después ajustar un detalle concreto escribiendo. Del mismo modo, puedes escuchar la respuesta mientras miras un mapa o una imagen, y si algo no te queda claro, escribir la duda exacta debajo sin parar la sesión.
Aun con toda esta integración, el nuevo modo de voz de ChatGPT sigue teniendo un punto de control claro para cerrar la parte de audio. Cuando quieras dejar de usar la voz y quedarte solo con el chat de texto, necesitas pulsar el botón “end” (terminar). Ese gesto indica a la aplicación que quieres parar la conversación hablada.

Hasta que no pulses “end”, la sesión de voz se mantiene activa y puedes seguir lanzando preguntas de viva voz. Esto evita que la charla se corte por error y te da margen para alargar un poco más la interacción si se te ocurre una duda de última hora. En cuanto terminas, sigues en el mismo chat, pero ya en modo escrito normal.
Otro detalle importante del cambio es que el modo de voz renovado de ChatGPT se convierte en la configuración por defecto. Es decir, si activas el uso de voz, lo habitual será que entres directamente en esta experiencia integrada en el chat, con texto en pantalla y elementos visuales compartidos al momento.
OpenAI está desplegando este nuevo diseño de voz tanto en la versión web como en las aplicaciones móviles de ChatGPT. Da igual si usas el servicio en el navegador desde tu ordenador o desde el móvil, porque la idea es que tengas la misma experiencia unificada: voz, texto e imágenes conviviendo en la misma interfaz.
Puede que prefieras el estilo anterior, más centrado en una pantalla de voz independiente, por costumbre o porque te vaya mejor en alguna situación concreta. En ese caso, no estás “atrapado” en el nuevo diseño. Tienes una vía para recuperar el modo de voz separado de ChatGPT desde el menú de configuración.
Para hacerlo, entra en “Settings” (ajustes) y busca el apartado llamado “Voice Mode”. Dentro de esa sección verás ahora una nueva opción etiquetada como “Separate mode”. Si activas “Separate mode”, vas a poder volver a la interfaz de voz independiente con su pantalla propia, similar a la que usabas antes del cambio.
Esta opción ofrece cierta flexibilidad: tú eliges si quieres el modo moderno, integrado con el chat, o el diseño clásico más aislado. En los dos casos, sigues contando con un modo de voz de ChatGPT completo, pero adaptado a cómo te resulta más cómodo hablar y escuchar al asistente.
En conjunto, este nuevo diseño de ChatGPT, que une voz, texto e imágenes en la misma pantalla en tiempo real, busca que tus conversaciones sean más claras y sencillas de seguir.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.