Tencent lanza HunyuanVideo, su generador de video Open Source

Por

03/12/2024

101

La generación de video con inteligencia artificial acaba de recibir un impulso significativo con el lanzamiento de HunyuanVideo, el nuevo modelo open-source de Tencent. Este innovador sistema, con 13 mil millones de parámetros, promete abrir nuevas posibilidades para la creación audiovisual mediante inteligencia artificial, situándose como una de las herramientas más completas disponibles para la comunidad tecnológica.

Un modelo de video generativo único

HunyuanVideo es un modelo diseñado específicamente para generar videos tanto a partir de texto como de imágenes. Con una arquitectura que unifica las capacidades de generación de imágenes y videos, este sistema permite resultados sorprendentes en calidad visual, diversidad de movimiento y alineación con los prompts proporcionados.

Principales características de HunyuanVideo:

Modelo de 13B de parámetros: Su gran capacidad lo posiciona como el modelo open-source más robusto en su categoría.
Codificación 3D VAE: Comprime eficientemente datos espaciales y temporales para facilitar el procesamiento.
Reescritura de prompts: Mejora la interpretación de instrucciones del usuario con modos específicos para optimizar resultados.
Text-to-video e Image-to-video: Soporte para generación tanto desde texto como desde imágenes, permitiendo una flexibilidad única.
Comparativas de alto nivel: Supera en rendimiento a modelos cerrados como Runway Gen-3 y Luma 1.6 en evaluaciones de calidad visual y movimiento.

¿Qué hace especial a HunyuanVideo?

La clave del éxito de este modelo radica en su combinación de innovaciones tecnológicas, como el uso de un encoder multimodal de texto basado en grandes modelos de lenguaje (MLLM) y un diseño híbrido de doble flujo que mejora la interacción entre información visual y semántica. Además, su sistema de compresión 3D permite procesar videos en alta calidad sin comprometer el rendimiento.

Según Tencent, HunyuanVideo busca reducir la brecha entre modelos cerrados y abiertos, empoderando a la comunidad con herramientas de última generación para experimentar con la creación de videos.

Requisitos técnicos y opciones de implementación

Para ejecutar el modelo, es necesario contar con una GPU de alto rendimiento, con al menos 60 GB de memoria para videos de alta calidad. Tencent proporciona una guía completa de instalación y soporte para Docker, lo que facilita la implementación tanto en entornos locales como en la nube.

Resolución	Relación de aspecto	Memoria GPU mínima
720p (1280×720)	16:9	60 GB
540p (960×544)	16:9	45 GB

Comparativa Hunyuan Video con otros modelos

Model	Open Source	Duration	Text Alignment	Motion Quality	Visual Quality	Overall	Ranking
Model	Open Source	HunyuanVideo (Ours)	✔	5s	Visual Quality	Overall	Ranking	68.5%	64.5%	96.4%	44.7%	1
CNTopA (API)	✘	5s	68.8%	57.5%	95.8%	38.8%	2
CNTopB (Web)	✘	5s	64.5%	59.3%	97.7%	37.6%	3
GEN-3 alpha (Web)	✘	6s	49.3%	48.3%	97.1%	24.6%	4
CNTopC (Web)	✘	5s	52.7%	42.1%	96.2%	24.1%	5
Luma1.6 (API)	✘	5s	59.7%	36.8%	93.5%	21.6%	6

Además, el modelo incluye herramientas como Gradio y ComfyUI para una interacción más sencilla con usuarios y desarrolladores.

Cómo empezar con HunyuanVideo

Tencent ha puesto a disposición de la comunidad el código fuente, los pesos pre-entrenados y una guía de instalación en su repositorio de GitHub. Además, los usuarios pueden descargar el modelo preconstruido en Docker desde la página oficial del proyecto.

Para quienes deseen explorar sus capacidades, también se incluyen demos y configuraciones personalizables, como la longitud del video, la resolución y los pasos de inferencia.

Una herramienta para democratizar la creación de videos

Con el lanzamiento de HunyuanVideo, Tencent no solo marca un hito en el desarrollo de herramientas de generación de video open-source, sino que también refuerza el compromiso de la industria tecnológica por fomentar la innovación abierta. Este modelo está destinado a ser un pilar para desarrolladores, investigadores y creativos interesados en la generación de videos con inteligencia artificial.

Tencent apuesta por un futuro donde la creación audiovisual esté al alcance de todos, gracias a soluciones escalables y de alta calidad como HunyuanVideo.

Aitor Wilzig

Me dedico al SEO y la monetización con proyectos propios desde 2019. Un friki de las nuevas tecnologías desde que tengo uso de razón.
Estoy loco por la Inteligencia Artificial y la automatización.

gptzone.net