Tencent anuncia la publicación de código abierto de su nuevo marco de generación de video a partir de imágenes: HunyuanVideo-I2V. Este lanzamiento, que sigue al exitoso lanzamiento de código abierto de HunyuanVideo, representa un avance significativo y busca impulsar la exploración profunda de la comunidad de código abierto.

QQ_1741250034750.png

HunyuanVideo-I2V integra tecnología de vanguardia en generación de video, capaz de transformar imágenes estáticas en contenido de video dinámico, ofreciendo a los creadores más posibilidades.

HunyuanVideo-I2V utiliza un modelo de lenguaje multimodal preentrenado como codificador de texto, mejorando significativamente la capacidad del modelo para comprender el contenido semántico de las imágenes de entrada. Esto significa que las imágenes introducidas por el usuario pueden generar etiquetas de imagen semánticas, que se combinan con las etiquetas potenciales del video para lograr un cálculo de atención completo más exhaustivo. De esta manera, el sistema maximiza la sinergia entre las modalidades de imagen y texto, garantizando que el contenido de video generado a partir de imágenes estáticas sea más coherente y realista.

Para aquellos que deseen utilizar HunyuanVideo-I2V para la generación de video, Tencent proporciona una guía de instalación y uso detallada. Se requieren ciertos requisitos de hardware; se recomienda utilizar una GPU NVIDIA con al menos 80 GB de VRAM para lograr la mejor calidad de generación de video. Además, el sistema admite la generación de videos de hasta 720P de resolución y 129 fotogramas (aproximadamente 5 segundos) de duración.

Para ayudar a los usuarios a utilizar mejor el modelo, Tencent también comparte algunos consejos, como mantener las indicaciones concisas y asegurarse de que cubran los elementos principales, incluyendo el tema principal del video, la acción y el fondo.

Proyecto: https://github.com/Tencent/HunyuanVideo-I2V?tab=readme-ov-file