El hallazgo llega desde Qwen, el equipo de IA de Alibaba Group, que presentó dos modelos nuevos para crear y clonar voces a partir de prompts (instrucciones escritas en lenguaje natural). Uno diseña una voz desde cero; el otro copia una voz real con una muestra mínima. Y ya se pueden probar en Hugging Face, además de estar disponibles vía la API de Alibaba Cloud.
Por un lado, está Qwen3-TTS-VD Flash, pensado para “diseño de voz” mediante descripciones. Por el otro, Qwen3-TTS-VC-Flash, orientado a clonación. Según Qwen, el primero supera en rendimiento a la API GPT-4o mini-tts de OpenAI (un servicio para convertir texto en voz), y el segundo logra menor tasa de error que alternativas como Elevenlabs o MiniMax, de acuerdo con información citada por The Decoder.

Qwen3-TTS-VD Flash permite ajustar emoción, tempo y estilo del habla como si fueran perillas. La voz puede definirse con un prompt muy específico: edad aproximada, tipo de voz (por ejemplo, “barítono potente”), ritmo, y hasta un estilo tipo “infomercial hiperenergético” con entonación marcada.
La analogía más útil es pensar la voz como el cableado de una casa. El texto que escribís sería la energía que entra. Y el modelo actúa como el tablero eléctrico: decide qué “circuitos” se encienden (emoción), cuánta potencia pasa (volumen y énfasis) y qué lámparas se prenden primero (ritmo y pausas).
En ese tablero, el prompt funciona como un interruptor central. No hay que saber de acústica. Se describe lo que se busca y el sistema traduce esa intención a una voz. Esa traducción es el mecanismo que vuelve doméstica una tarea que antes era técnica y lenta.

En cambio, Qwen3-TTS-VC-Flash es más parecido a hacer una copia de llave. Con apenas tres segundos de audio de referencia, el modelo clona la voz. Y, además, la reproduce en diez idiomas. No se trata solo de “sonar parecido”: el objetivo es mantener timbre y estilo mientras cambia el idioma.
También te puede interesar:Qwen-Image: La IA Gratuita Capaz de Superar a ChatGPT en la Generación de ImágenesEn Hugging Face, la interfaz permite grabar una muestra desde el móvil en segundos. Luego se pega el texto a sintetizar y se pulsa Start synthesis. Al final, se puede reproducir o guardar el audio generado. Aunque el modelo puede funcionar con tres segundos, Qwen recomienda usar entre 10 y 30 segundos para resultados más estables.

Este tipo de herramientas también muestra otra pieza clave: el sistema procesa textos complejos, no solo frases simples. Es decir, puede leer contenido especializado sin “tropezar” tanto. Y tiene usos extra: imitar sonidos de animales o extraer voces de grabaciones, lo que permite aislar una voz dentro de un audio existente y replicarla.
En el día a día, la oportunidad es clara: doblaje rápido, accesibilidad (por ejemplo, recuperar una voz para quien la perdió), audiolibros caseros o atención al cliente con tonos más humanos. Pero el mismo engranaje abre un frente sensible: la suplantación. Si tres segundos alcanzan, la higiene digital pasa a ser tan importante como cuidar una contraseña.
En paralelo, estos lanzamientos refuerzan el lugar de Qwen como familia de modelos de código abierto que compite con ChatGPT, Claude o Gemini. Y encaja en una tendencia más amplia: en Europa se presentaron modelos abiertos como Devstral 2 y Devstral Small 2, pensados para instalar localmente en una PC, con el plus de proteger la privacidad de lo que se consulta y se comparte con la IA.
Si la voz es una llave, estos modelos son una nueva cerradura que la industria recién está aprendiendo a usar. Y el usuario, esta vez, puede mirar el mecanismo de cerca.
También te puede interesar:ChatGPT Domina las Portadas, pero Alibaba Está Cerrando Acuerdos que Pocos Ven Venir
Directora de operaciones en GptZone. IT, especializada en inteligencia artificial. Me apasiona el desarrollo de soluciones tecnológicas y disfruto compartiendo mi conocimiento a través de contenido educativo. Desde GptZone, mi enfoque está en ayudar a empresas y profesionales a integrar la IA en sus procesos de forma accesible y práctica, siempre buscando simplificar lo complejo para que cualquiera pueda aprovechar el potencial de la tecnología.