xAI está preparando una función de clonación de voz para Grok en iOS que, si llega tal como se ha detectado, puede transformar el “modo voz” de algo casi anecdótico en una herramienta realmente seria.
La idea no se limita a elegir entre voces preconfiguradas. El planteamiento va más allá: crear tu propio perfil de voz leyendo un texto guiado dentro de la app. Es decir, pasar de presets cerrados a una identidad sonora personalizada.
La función se ha detectado en fase de desarrollo y propone un flujo bastante claro. El usuario leería un texto específico y Grok utilizaría esa muestra para construir una voz que luego podría reutilizarse en cualquier interacción dentro del modo voz. Lo interesante no es solo la clonación en sí, sino lo que la rodea: la posibilidad de compartir esa voz mediante un enlace y permitir que otros la guarden para usarla también.
El sistema pediría grabar la voz leyendo un texto estructurado como cuatro párrafos de una historia corta, con forma de prompt. No sería un simple “di algo durante diez segundos”, sino una captura controlada que permita recoger entonación, pausas y ritmos de habla de manera consistente.

En clonación de voz, la calidad y variedad del audio de entrada son clave. Cuanto más limpio y equilibrado sea el material original, más natural será el resultado. Tras esa lectura, Grok procesaría la grabación para generar un perfil vocal personal, una representación digital de tu timbre y tu manera de hablar que serviría para sintetizar frases nuevas sin necesidad de volver a grabar.
Importante: no se trataría de reemplazar el modo voz actual, sino de integrarlo. La voz clonada funcionaría dentro del sistema ya disponible en Grok. Con ello, el producto deja de ofrecer solo “personalidades” y empieza a ofrecer identidad, algo mucho más potente desde el punto de vista psicológico y de producto.
También te puede interesar:Grok estrena visión y nuevas funciones inteligentesEsta función no surge de la nada. A principios de 2025 ya se seguía el desarrollo del modo voz de Grok, cuando xAI experimentaba con perfiles como “unhinged” y “genius” apoyándose en tecnología de ElevenLabs. En ese momento, el enfoque era jugar con estilos cerrados, pero la dirección ya estaba clara: el audio como eje estratégico.
Posteriormente, xAI lanzó la Grok Voice Agent API para aplicaciones de voz en tiempo real, promocionándola como una de las más rápidas del mercado, con tiempos de respuesta por debajo de los 700 milisegundos. Esa latencia es clave, porque cuando el intercambio cae por debajo de cierto umbral, la percepción cambia: el usuario deja de “usar una función” y empieza a mantener una conversación fluida.

Además, esta infraestructura de audio también impulsa experiencias en vehículos de Tesla. Si ya existe una base sólida de audio en tiempo real integrada incluso en coches, el paso hacia la personalización vocal parece casi inevitable. La clonación encaja como evolución natural dentro de esa estrategia.
Uno de los aspectos más llamativos es la opción de compartir la voz clonada mediante un enlace. El usuario generaría su perfil y podría distribuirlo como si fuera un documento compartido. Lo más significativo es que quien abra ese enlace tendría la posibilidad de guardar esa voz para su propio uso.
Aquí se abre un escenario interesante. Si las voces pueden coleccionarse con un clic, es fácil imaginar dinámicas de intercambio masivo. Aunque no exista una tienda oficial, podrían surgir bibliotecas informales de voces que circulen como activos digitales recomendados, curados y compartidos dentro de comunidades.
Sin embargo, este terreno también trae preguntas incómodas: permisos, suplantación y control de uso. ¿Hasta qué punto una voz sigue siendo “tuya” cuando otros pueden almacenarla y utilizarla? Si xAI quiere escalar esta función, necesitará controles sólidos de atribución, límites de uso y herramientas antiabuso que vayan más allá del discurso.
También te puede interesar:Grok se acerca al modo agente: xAI prueba acceso a pantalla en tiempo real en iOSLos beneficiarios iniciales más probables no serán simplemente entusiastas de la IA, sino creadores, podcasters y desarrolladores que necesitan una identidad sonora consistente. Para quienes viven del audio, sonar igual hoy, mañana y dentro de seis meses es una cuestión de marca. La voz se ha convertido en branding, al mismo nivel que un logo o un estilo visual.

Además, disponer de una voz propia lista para usar reduce la fricción al crear asistentes, narradores automatizados o bots personalizados. Si el sistema de enlaces funciona con fluidez, podría generarse rápidamente una biblioteca social de voces que aumente el atractivo del modo voz de Grok frente a la competencia.
Por ahora, la función sigue en desarrollo y no hay fecha confirmada de lanzamiento. Aun así, el ritmo reciente de novedades alrededor de Grok sugiere que no sería extraño verla llegar pronto. Si xAI consigue que Grok no solo responda rápido, sino que hable como tú —o como quien tú elijas—, el estándar del audio en IA podría elevarse de golpe. La incógnita será si los mecanismos de control y seguridad avanzan al mismo ritmo que la ambición tecnológica.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.