Kunlun Wanwei lanza código abierto de SkyReels-V2: modelo de generación de películas de duración ilimitada

AIbase基地

Publicado elNoticias de IA · 8 minutos de lectura · Apr 21, 2025

El equipo de Kunlun Wanwei SkyReels anuncia oficialmente el lanzamiento y la publicación de código abierto de SkyReels-V2, el primer modelo de generación de películas de duración ilimitada del mundo que utiliza el marco de forzado de difusión (Diffusion-forcing). Este modelo logra una optimización colaborativa combinando modelos de lenguaje multimodal de gran tamaño (MLLM), preentrenamiento multietapa, aprendizaje por refuerzo y el marco de forzado de difusión, marcando un nuevo hito en la tecnología de generación de vídeo.

El lanzamiento de SkyReels-V2 tiene como objetivo abordar los importantes desafíos que presentan las tecnologías actuales de generación de vídeo en cuanto al seguimiento de indicaciones, la calidad visual, la dinámica del movimiento y la coordinación de la duración del vídeo. El modelo no solo representa un avance tecnológico, sino que también ofrece diversas aplicaciones, incluyendo la generación de historias, la generación de vídeo a partir de imágenes, la función de director de fotografía y la generación de vídeos con múltiples sujetos coherentes (SkyReels-A2). SkyReels-V2 ya admite la generación de vídeos de 30 y 40 segundos, y tiene la capacidad de generar vídeos de alta calidad de movimiento, alta coherencia y alta fidelidad.

微信截图_20250421110023.png

Las innovaciones tecnológicas centrales de SkyReels-V2 incluyen:

Modelo completo de comprensión de vídeo a nivel cinematográfico SkyCaptioner-V1: mediante un método de representación de vídeo estructurado, que combina la descripción general del LLM multimodal y el lenguaje de toma detallado de los modelos sub-expertos, se mejora significativamente la capacidad de comprensión del lenguaje de las tomas. Este modelo puede comprender eficazmente los datos de vídeo y generar descripciones diversas que se ajustan a la información estructural original.
Optimización de preferencias de movimiento: mediante el entrenamiento de aprendizaje por refuerzo, utilizando datos etiquetados manualmente y datos de distorsión sintética, se han resuelto problemas como la distorsión dinámica y la falta de coherencia. SkyReels-V2 presenta un excelente rendimiento en la dinámica del movimiento, capaz de generar contenido de vídeo fluido y realista.
Marco de forzado de difusión eficiente: mediante el ajuste fino de los modelos de difusión preentrenados, se convierten en modelos de forzado de difusión, lo que mejora significativamente la eficiencia de la generación. Este método no solo reduce el coste de entrenamiento, sino que también permite la generación eficiente de vídeos largos.
Preentrenamiento de resolución progresiva y optimización de postentrenamiento multietapa: integrando datos de cientos de millones de fuentes, incluyendo conjuntos de datos generales, medios auto-recopilados y bibliotecas de recursos artísticos, mediante métodos de optimización multietapa, se asegura que SkyReels-V2 mejore gradualmente varios aspectos con recursos limitados, alcanzando el nivel de generación de vídeo cinematográfico.

En cuanto a la evaluación del rendimiento, SkyReels-V2 ha destacado en SkyReels-Bench y V-Bench. SkyReels-Bench contiene 1020 indicaciones de texto y evalúa sistemáticamente cuatro dimensiones clave: cumplimiento de instrucciones, calidad del movimiento, coherencia y calidad visual. En la evaluación de SkyReels-Bench, SkyReels-V2 ha logrado un progreso significativo en el cumplimiento de instrucciones, manteniendo al mismo tiempo la calidad del movimiento sin sacrificar la coherencia del vídeo. En la evaluación automatizada de V-Bench 1.0, SkyReels-V2 supera a todos los modelos de comparación, incluyendo HunyuanVideo-13B y Wan2.1-14B, tanto en la puntuación total (83,9%) como en la puntuación de calidad (84,7%).

SkyReels-V2 ofrece una amplia gama de aplicaciones, incluyendo:

Generación de historias: mediante un método de ventana deslizante, el modelo hace referencia a los fotogramas generados previamente y a las indicaciones de texto al generar nuevos fotogramas, lo que permite la expansión temporal y la generación de vídeos de larga duración con una narrativa coherente.
Síntesis de imagen a vídeo: ofrece dos métodos de generación de imagen a vídeo (I2V), incluyendo el ajuste fino del modelo de difusión de texto a vídeo (T2V) de secuencia completa y la combinación del modelo de forzado de difusión con las condiciones de fotogramas.
Función de director de fotografía: mediante una selección específica de muestras, se garantiza una representación equilibrada de los movimientos básicos de la cámara y sus combinaciones comunes, mejorando significativamente los efectos de fotografía.
Generación de elementos a vídeo: basado en el modelo base SkyReels-V2, se ha desarrollado la solución SkyReels-A2, capaz de combinar cualquier elemento visual en un vídeo coherente guiado por indicaciones de texto.

El equipo de Kunlun Wanwei SkyReels afirma que continuará impulsando el desarrollo de la tecnología de generación de vídeo y que publicará completamente el código abierto de los modelos SkyCaptioner-V1 y SkyReels-V2 para promover la investigación y las aplicaciones en el ámbito académico e industrial. El equipo también continuará optimizando el rendimiento de SkyReels-V2, explorando más aplicaciones y reduciendo aún más los costes de computación para que pueda aplicarse más ampliamente en la creación de contenido creativo y en el campo de la simulación virtual.

Dirección de GitHub:
https://github.com/SkyworkAI/SkyReels-V2
Dirección del artículo:
https://arxiv.org/abs/2504.13074
Dirección del sitio web de SkyReels:
https://www.skyreels.ai/home

¡Revolucionando los estándares de evaluación de agentes de código! GitTaskBench abre una nueva era

Recientemente, GitTaskBench, desarrollado conjuntamente por varias instituciones académicas prestigiosas como la Academia de Ciencias de China, la Universidad de Pekín y la Universidad de Ciencia y Tecnología de Hong Kong, ha sido lanzado oficialmente, marcando el comienzo de una nueva era en los estándares de entrega práctica de agentes de código. Los sistemas actuales de evaluación suelen enfocarse en la generación de código y en preguntas cerradas, lo cual no refleja completamente los desafíos que enfrentan los desarrolladores en su trabajo diario, como la configuración del entorno, la gestión de dependencias y la integración de recursos entre repositorios. Por lo tanto, GitTaskBench no solo se enfoca en la generación de código, sino que también incluye todo el proceso de desarrollo dentro del ámbito de evaluación, logrando por primera vez

Firecrawl anuncia que abrirá el código de su comprobador de preparación para la IA la próxima semana, para ayudar a optimizar completamente los sitios web

Firecrawl, proveedor líder de soluciones para el raspado de páginas web y el procesamiento de datos, anunció recientemente que abrirá el código de su innovador comprobador de preparación para la IA la próxima semana. Esta herramienta tiene como objetivo realizar una auditoría completa del sitio web, ayudando a los sitios web a mejorar su visibilidad y capacidad de optimización de contenido en entornos de búsqueda impulsada por la IA. Según la última noticia de Firecrawl en la plataforma de redes sociales X, este comprobador puede evaluar el desempeño del sitio web en múltiples áreas clave, asegurando que esté adaptado a las necesidades de las tecnologías de IA modernas y los motores de búsqueda. El comprobador de preparación para la IA puede realizar auditorías profundas del sitio web

WeChat: Agregarán identificaciones explícitas e implícitas para contenido generado y sintetizado por IA

Hoy, la seguridad de la Tortuga Coral de WeChat publicó un importante anuncio, anunciando que mejorará la regulación del trabajo de identificación del contenido generado y sintetizado por inteligencia artificial. El anuncio señala que, de acuerdo con los requisitos del próximo método de identificación de contenido generado y sintetizado por inteligencia artificial, la plataforma de WeChat agregará identificaciones explícitas e implícitas para el contenido generado y sintetizado por IA, con el fin de garantizar la transparencia y confiabilidad de la información que obtienen los usuarios. El anuncio enfatiza que, para evitar confusiones o malas interpretaciones durante la difusión del contenido generado y sintetizado por IA, los usuarios deben declarar activamente al publicar dicho contenido en la plataforma de WeChat. Esta medida tiene como objetivo garantizar el uso

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

Building and Deploying AI

AI Models Finder

LLM Leaderboard

Model Providers

Submit Your Model

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

Kunlun Wanwei lanza código abierto de SkyReels-V2: modelo de generación de películas de duración ilimitada

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

El equipo de Alibaba Qwen presenta el marco de automatización GUI de próxima generación Mobile-Agent-v3 y GUI-Owl

¡Revolucionando los estándares de evaluación de agentes de código! GitTaskBench abre una nueva era

Inversión masiva no resuelve la crisis de confianza: Meta y Scale AI muestran fisuras

Gemini de Google se acerca a ChatGPT, Google actualmente tiene 4 aplicaciones de IA en el Top 50

Musk admite que el repositorio de código de xAI fue robado, ex empleado se une a OpenAI!

Firecrawl anuncia que abrirá el código de su comprobador de preparación para la IA la próxima semana, para ayudar a optimizar completamente los sitios web

¡OpenAI lanza GPT-realtime con un impacto tremendo! ¡La revolución de la inteligencia artificial de voz está aquí, las conversaciones entre humanos y máquinas son indistinguibles!

Meta y UCSD presentan DeepConf: la precisión de razonamiento de IA alcanza un 99,9% y los costos computacionales se reducen en un 85%

WeChat: Agregarán identificaciones explícitas e implícitas para contenido generado y sintetizado por IA

Resultados sorprendentes! Aliyun crece un 26% y lidera el crecimiento de ingresos en inteligencia artificial con un aumento de tres dígitos durante ocho trimestres consecutivos