Si trabajas con audio y te interesan las voces de IA, habrás notado que la calidad mejora mes a mes. La pregunta que se hace todo el mundo es clara: ¿habrá realmente diferencias entre proveedores dentro de poco? El CEO de ElevenLabs compartió una visión directa sobre hacia dónde va el sector y qué decisiones conviene tomar hoy.
La idea de que las voces de IA se vuelvan una commodity implica que, con el tiempo, la mayoría de proveedores alcanzarán un nivel de calidad parecido. Es decir, cambiar de servicio sin notar grandes brechas en pronunciación, timbre o latencia para las tareas más comunes.

El propio Mati Staniszewski matiza que seguirán existiendo pequeñas diferencias entre voces o idiomas, especialmente en acentos concretos o entonaciones complicadas. Con todo, esas diferencias se irán haciendo menos relevantes para la mayoría de proyectos y presupuestos.
Según esta visión, en los próximos años los modelos de audio por IA convergerán en resultados muy parecidos para locución estándar, atención al cliente o doblaje básico.
Si necesitas voces infantiles naturales, idiomas poco cubiertos o voice acting con emociones complejas, es posible que un modelo destaque ligeramente. La diferencia existirá, pero cada vez será menos decisiva para la mayoría de usos.
Si el destino es la commoditización, ¿por qué invertir hoy en nuevos modelos de audio? La respuesta de Staniszewski es práctica: a corto plazo, construir buenos modelos sigue siendo la mayor ventaja competitiva. Se cierra la brecha en calidad y control que todavía notan los usuarios finales.
También te puede interesar:ElevenLabs Estrena Su App Móvil de IA para Generación de Texto a Voz en Android y iOS
El equipo de ElevenLabs afirma haber superado ya retos de arquitectura significativos, y anticipa que la arquitectura seguirá siendo el principal foco en audio uno o dos años más. El “sonido realmente bueno” en voces e interacciones no está resuelto del todo, y ahí es donde hoy se gana o se pierde.
El gran desafío no es solo clonar o sintetizar, sino lograr que las voces de IA mantengan naturalidad, ritmo y respuestas consistentes en sesiones largas. Para eso, Staniszewski defiende que la única vía eficaz ahora mismo es construir los modelos internamente, con control fino de datos, entrenamiento y despliegue.
En el futuro habrá más empresas capaces de resolverlo con solidez. En cualquier caso, si hoy necesitas precisión en pronunciación, continuidad conversacional y latencia baja, invertir en un modelo propio o elegir un proveedor muy centrado en modelos de audio por IA puede marcar la diferencia.
La siguiente ola apunta a lo multimodal: crear audio y vídeo a la vez, o unir voces de IA con modelos de lenguaje en contextos conversacionales. La tendencia, según Staniszewski, se acelera en el próximo año o dos, y cambiará cómo planificas tus productos.
Como referencia, destaca el ejemplo de Veo 3 de Google, que muestra lo que ya es posible al combinar diferentes modelos. Con todo, integrar audio con LLMs abre caminos evidentes: asistentes que hablan, tutoriales animados con narración natural, además de modelos que coordinan voz con imagen y acciones.
Coordinar latencia, coherencia entre pistas y control de derechos de voz requiere una arquitectura cuidada. Por eso el peso técnico de los modelos de audio seguirá siendo clave a corto plazo.
También te puede interesar:Nuevo Modelo de ElevenLabs Promete Música Lista Para Vender… ¿Pero a Qué Costo?Para crear valor a largo plazo, ElevenLabs planea colaborar con otras empresas y trabajar con tecnologías de código abierto. La idea es combinar su experiencia en audio con lo mejor de otros modelos y así acelerar la calidad y el alcance de las voces de IA.
Al mismo tiempo, su objetivo no se limita al laboratorio: quieren centrarse tanto en crear modelos como en desarrollar aplicaciones. El paralelismo con Apple es claro: cuando producto y tecnología van de la mano, la magia ocurre y aparecen los mejores casos de uso.
Staniszewski sugiere que las soluciones escalables y fiables mezclarán modelos según el contexto. En la práctica, es posible combinar varios proveedores o motores, y eso te dará resiliencia y calidad estable.
En el corto plazo, la diferencia la marcarán los avances en arquitectura de modelos y el cuidado de la calidad conversacional. Notarás mejoras claras en naturalidad, ritmos y control emocional en las voces de IA, sobre todo en contextos interactivos.

Con todo, la tendencia general llevará a una commoditización del audio, con distancias cada vez más pequeñas entre proveedores. A la vez, la adopción de modelos multimodales crecerá, ya sea para crear audio con vídeo o para unir TTS con LLMs en interfaces de voz fluidas.
En cualquier caso, el enfoque de ElevenLabs refuerza dos líneas: seguir construyendo modelos para ganar en calidad hoy, y desarrollar aplicaciones donde producto e IA se integran y generan valor real. Ahí es donde verás casos de uso sólidos y repetibles.
También te puede interesar:Se Actualizó Google Fotos: Mejora en la Conversión de Imágenes a Vídeo con Veo 3A corto plazo, invertir en buenos modelos de audio te da ventaja y soluciona la calidad que aún falta. Para medio plazo, la diferencia entre motores será menor y lo decisivo será cómo combinas audio con vídeo y LLMs, cómo eliges el modelo para cada caso y cómo conviertes esa tecnología en producto que la gente quiera usar cada día.
Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.