El equipo de Kunlun Wanwei SkyReels anuncia oficialmente el lanzamiento y la publicación de código abierto de SkyReels-V2, el primer modelo de generación de películas de duración ilimitada del mundo que utiliza el marco de forzado de difusión (Diffusion-forcing). Este modelo logra una optimización colaborativa combinando modelos de lenguaje multimodal de gran tamaño (MLLM), preentrenamiento multietapa, aprendizaje por refuerzo y el marco de forzado de difusión, marcando un nuevo hito en la tecnología de generación de vídeo.

El lanzamiento de SkyReels-V2 tiene como objetivo abordar los importantes desafíos que presentan las tecnologías actuales de generación de vídeo en cuanto al seguimiento de indicaciones, la calidad visual, la dinámica del movimiento y la coordinación de la duración del vídeo. El modelo no solo representa un avance tecnológico, sino que también ofrece diversas aplicaciones, incluyendo la generación de historias, la generación de vídeo a partir de imágenes, la función de director de fotografía y la generación de vídeos con múltiples sujetos coherentes (SkyReels-A2). SkyReels-V2 ya admite la generación de vídeos de 30 y 40 segundos, y tiene la capacidad de generar vídeos de alta calidad de movimiento, alta coherencia y alta fidelidad.

微信截图_20250421110023.png

Las innovaciones tecnológicas centrales de SkyReels-V2 incluyen:

  1. Modelo completo de comprensión de vídeo a nivel cinematográfico SkyCaptioner-V1: mediante un método de representación de vídeo estructurado, que combina la descripción general del LLM multimodal y el lenguaje de toma detallado de los modelos sub-expertos, se mejora significativamente la capacidad de comprensión del lenguaje de las tomas. Este modelo puede comprender eficazmente los datos de vídeo y generar descripciones diversas que se ajustan a la información estructural original.

  2. Optimización de preferencias de movimiento: mediante el entrenamiento de aprendizaje por refuerzo, utilizando datos etiquetados manualmente y datos de distorsión sintética, se han resuelto problemas como la distorsión dinámica y la falta de coherencia. SkyReels-V2 presenta un excelente rendimiento en la dinámica del movimiento, capaz de generar contenido de vídeo fluido y realista.

  3. Marco de forzado de difusión eficiente: mediante el ajuste fino de los modelos de difusión preentrenados, se convierten en modelos de forzado de difusión, lo que mejora significativamente la eficiencia de la generación. Este método no solo reduce el coste de entrenamiento, sino que también permite la generación eficiente de vídeos largos.

  4. Preentrenamiento de resolución progresiva y optimización de postentrenamiento multietapa: integrando datos de cientos de millones de fuentes, incluyendo conjuntos de datos generales, medios auto-recopilados y bibliotecas de recursos artísticos, mediante métodos de optimización multietapa, se asegura que SkyReels-V2 mejore gradualmente varios aspectos con recursos limitados, alcanzando el nivel de generación de vídeo cinematográfico.

En cuanto a la evaluación del rendimiento, SkyReels-V2 ha destacado en SkyReels-Bench y V-Bench. SkyReels-Bench contiene 1020 indicaciones de texto y evalúa sistemáticamente cuatro dimensiones clave: cumplimiento de instrucciones, calidad del movimiento, coherencia y calidad visual. En la evaluación de SkyReels-Bench, SkyReels-V2 ha logrado un progreso significativo en el cumplimiento de instrucciones, manteniendo al mismo tiempo la calidad del movimiento sin sacrificar la coherencia del vídeo. En la evaluación automatizada de V-Bench 1.0, SkyReels-V2 supera a todos los modelos de comparación, incluyendo HunyuanVideo-13B y Wan2.1-14B, tanto en la puntuación total (83,9%) como en la puntuación de calidad (84,7%).

SkyReels-V2 ofrece una amplia gama de aplicaciones, incluyendo:

  1. Generación de historias: mediante un método de ventana deslizante, el modelo hace referencia a los fotogramas generados previamente y a las indicaciones de texto al generar nuevos fotogramas, lo que permite la expansión temporal y la generación de vídeos de larga duración con una narrativa coherente.

  2. Síntesis de imagen a vídeo: ofrece dos métodos de generación de imagen a vídeo (I2V), incluyendo el ajuste fino del modelo de difusión de texto a vídeo (T2V) de secuencia completa y la combinación del modelo de forzado de difusión con las condiciones de fotogramas.

  3. Función de director de fotografía: mediante una selección específica de muestras, se garantiza una representación equilibrada de los movimientos básicos de la cámara y sus combinaciones comunes, mejorando significativamente los efectos de fotografía.

  4. Generación de elementos a vídeo: basado en el modelo base SkyReels-V2, se ha desarrollado la solución SkyReels-A2, capaz de combinar cualquier elemento visual en un vídeo coherente guiado por indicaciones de texto.

El equipo de Kunlun Wanwei SkyReels afirma que continuará impulsando el desarrollo de la tecnología de generación de vídeo y que publicará completamente el código abierto de los modelos SkyCaptioner-V1 y SkyReels-V2 para promover la investigación y las aplicaciones en el ámbito académico e industrial. El equipo también continuará optimizando el rendimiento de SkyReels-V2, explorando más aplicaciones y reduciendo aún más los costes de computación para que pueda aplicarse más ampliamente en la creación de contenido creativo y en el campo de la simulación virtual.

  • Dirección de GitHub:

    https://github.com/SkyworkAI/SkyReels-V2

  • Dirección del artículo:

    https://arxiv.org/abs/2504.13074

  • Dirección del sitio web de SkyReels:

    https://www.skyreels.ai/home