La Universidad de Ciencia y Tecnología de China y ByteDance están a punto de lanzar un modelo de generación de videos de largo alcance con un hito significativo. Este modelo puede generar directamente videos de alta calidad con una duración de minutos, resolución de 480p y 24 cuadros por segundo (fps), y admite cambios de escena múltiples, marcando un avance clave en la tecnología de generación de videos nacional en la competencia global de inteligencia artificial generativa.
La innovación central de este logro radica en su algoritmo subyacente, MoGA (Modular Global Attention), que es un nuevo mecanismo de atención diseñado específicamente para resolver los problemas de extensión del contexto y el costo computacional en la generación de videos largos. Gracias a la optimización de la estructura de MoGA, el modelo puede procesar información de contexto de hasta 580.000 tokens, reduciendo significativamente el costo computacional y permitiendo así la generación de videos de larga duración y múltiples escenas.
El equipo de investigación señaló que los modelos tradicionales de generación de videos suelen estar limitados por la memoria de video y la capacidad de cálculo, pudiendo generar solo animaciones GIF o cortos de unos segundos. La incorporación de MoGA permite al modelo "generar de una vez" mini cortos que incluyan cambios de escena múltiples y una narrativa visual coherente, ampliando enormemente los límites de aplicación de los modelos de video generativo.
Además, MoGA tiene una alta modularidad y compatibilidad, pudiendo integrarse directamente con bibliotecas de aceleración eficientes existentes (como FlashAttention, xFormers, DeepSpeed, etc.), logrando así una mayor velocidad de entrenamiento e inferencia. Esto significa que esta tecnología no solo tiene importancia en términos de avances científicos, sino que también tiene potencial para aplicaciones industriales, pudiendo utilizarse en creación cinematográfica, generación de publicidad, animaciones de transición en juegos y producción de contenido de personas digitales, entre otros campos.
A medida que empresas como OpenAI, Pika y Runway avanzan en la generación de videos cortos, el modelo presentado por la Universidad de Ciencia y Tecnología de China y ByteDance se considera el primer sistema en China capaz de generar realmente videos de largo alcance con una duración de minutos. Su ventaja en algoritmos, eficiencia y escalabilidad podría impulsar a China a colocarse entre los países líderes en el campo de la generación de videos.
Dirección: https://jiawn-creator.github.io/mixture-of-groups-attention/




