Hasta hace muy poco, pedirle a una inteligencia artificial que te hiciera una canción terminaba en un bucle caótico de treinta segundos. Eso se ha acabado. Stability AI acaba de golpear la mesa con Stable Audio 3.0, una bestia generativa capaz de sacar temas completos y estructurados que superan los seis minutos. Una auténtica locura.

Y el salto no es solo cuestión de cantidad de segundos, sino de calidad real. La compañía, famosa por su historial de liberar modelos de código abierto que luego medio internet utiliza, parece haber dado con la tecla para que la música sintética empiece a sonar profesional. Literalmente.

Seis minutos de música que no pierde el norte

Si miramos los números frente a iteraciones anteriores, la evolución técnica asusta. Esta nueva versión duplica con creces la duración máxima de lo que permitía Stable Audio 2.0 a principios de año. Mantener el ritmo en pistas de más de seis minutos es un reto brutal porque la IA tiende a «olvidar» cómo empezó la canción, destrozando la coherencia. Aquí no pasa. Los nuevos modelos mantienen la estructura melódica sin despeinarse.

Esta nueva versión duplica con creces la duración máxima de lo que permitía Stable Audio 2.0

Básicamente, ya no tienes que conformarte con un estribillo suelto generado al azar. Puedes pedirle una introducción, un desarrollo, un clímax y un cierre, y el sistema te lo devuelve con una precisión milimétrica. Todo esto es gracias a un nuevo autocodificador semántico-acústico que han integrado en el motor principal.

Le indicas a la IA los segundos exactos que quieres que dure la pista, y clava el tiempo. Así de simple.

La familia crece: cuatro modelos para cada usuario

Evidentemente, no todo el mundo tiene una granja de GPUs en su casa para mover este nivel de software en local. Por eso, la empresa ha dividido la familia en cuatro variantes muy marcadas. El hermano menor es el modelo Small SFX, optimizado exclusivamente para generar efectos de sonido. Ni siquiera necesitas un hardware potente para probarlo; se ejecuta perfectamente en móviles o portátiles de consumo general.

A este le sigue la versión Small, que ya viene orientada a la composición musical completa desde tu ordenador y cuenta con 459 millones de parámetros. Pero si buscas resultados verdaderamente largos, tienes el modelo Medium, que da el salto hasta los 1.400 millones de parámetros y es el gran responsable de escupir esas pistas completas de seis minutos y veinte segundos en local.

Lo más interesante de esta jugada es que la filosofía abierta se mantiene viva. Puedes bajarte totalmente gratis estas tres versiones con pesos abiertos (Small SFX, Small y Medium) a través de la plataforma Hugging Face para usarlas, modificarlas o integrarlas donde quieras. La comunidad desarrolladora tiene juguete nuevo.

Pero claro, siempre hay un peso pesado guardado bajo llave. El modelo Large, una auténtica mole de 2.700 millones de parámetros pensada para producción masiva con baja latencia, no se puede descargar. Solo podrás acceder a él mediante API y servicios de autoalojamiento asociados. Toca pasar por caja.

Edición quirúrgica y el escudo legal antipiratas

A ello se le suma un arsenal de herramientas que apuntan directamente a los bolsillos de los productores musicales. Stable Audio 3.0 trae soporte nativo para LoRA. Es decir, te permite entrenar y personalizar el modelo con tus propias bibliotecas de sonidos para que saque un estilo musical concreto. Han publicado incluso la documentación oficial para enseñarte a hacerlo.

Por si fuera poco, estrenan capacidades de inpainting de audio. Imagina que tienes una pista generada increíble, pero hay cinco segundos de guitarra en el medio que suenan a lata. Ya no tienes que lanzar el prompt entero otra vez. Seleccionas ese trozo defectuoso, le pides a la IA que lo arregle, lo restaure o lo alargue, y el resto del archivo ni se inmuta.

Como era de esperar viendo el terreno de los derechos de autor hoy en día, el miedo a las discográficas ha dictado las normas. Para curarse en salud, toda esta familia de modelos se ha entrenado usando exclusivamente datos completamente licenciados. Cero material pirata rascado de internet. Además, se apoyan en acuerdos millonarios firmados con gigantes como Warner Music Group y Universal Music Group.

La letra pequeña para los creadores que quieran monetizar esto es bastante justa. Tienes una licencia comunitaria que te da luz verde para comercializar lo que generes sin problemas legales. La barrera solo aparece si tu empresa factura más de un millón de dólares anuales. En ese caso, te tocará negociar una licencia empresarial de pago.

Resulta obvio que Stability AI no está perdiendo el tiempo. Ya están cocinando una suite de productos enfocada a músicos profesionales que podría cambiar las reglas del estudio de grabación. Todavía no tenemos los detalles finales, pero el mensaje está enviado. La generación de audio ya no es solo para hacer bromas virales, es una herramienta pesada de producción. Veremos si la industria tradicional sabe encajar el golpe.

0 0 votos
Valoración del artículo
Suscribirte
Notificar sobre
guest
0 Comentarios
Más Antiguos
Más Nuevos Más Votados
Comentarios en línea
Ver todos los comentarios