Alibaba anunció recientemente la publicación de código abierto de su último modelo de generación de video de fotogramas inicial y final, Wan2.1-FLF2V-14B, capaz de generar videos HD de 720p y 5 segundos de duración. Este modelo, que ha generado un gran interés por su innovadora tecnología de control de fotogramas inicial y final, abre nuevas posibilidades en el campo de la generación de video con IA. Según AIbase, el modelo se lanzó en febrero de 2025 en las plataformas GitHub y Hugging Face, disponible para su uso gratuito por parte de desarrolladores, investigadores e instituciones comerciales de todo el mundo, lo que marca un nuevo hito importante en la construcción del ecosistema de IA de código abierto de Alibaba.

image.png

Función principal: Impulso de fotogramas inicial y final, generación de videos fluidos y de alta definición

Wan2.1-FLF2V-14B utiliza los fotogramas inicial y final como condiciones de control. Solo necesita que el usuario proporcione dos imágenes, y el modelo generará automáticamente un video de 5 segundos con una resolución de 720p. AIbase observó que el video generado presenta una excelente fluidez de movimiento y una transición impecable entre los fotogramas inicial y final, con una alta fidelidad en los detalles de la imagen y una notable mejora en la coherencia del contenido general. En comparación con los modelos tradicionales de generación de video, este modelo, mediante un control preciso de las condiciones, resuelve problemas comunes en la generación de videos de secuencias largas, como la vibración de la imagen y la deriva del contenido, proporcionando una solución eficiente para la creación de videos de alta calidad.

Puntos destacados de la tecnología: CLIP y DiT se fusionan para mejorar la estabilidad de la generación

Según el análisis de AIbase, Wan2.1-FLF2V-14B emplea una tecnología avanzada de control de condiciones de fotogramas inicial y final, cuyo núcleo reside en las siguientes innovaciones:

Extracción de características semánticas CLIP: Utiliza el modelo CLIP para extraer la información semántica de los fotogramas inicial y final, garantizando que el video generado sea altamente consistente con las imágenes de entrada en términos de contenido visual.

Mecanismo de atención cruzada: Inyecta las características de los fotogramas inicial y final en el proceso de generación de Diffusion Transformer (DiT), mejorando la estabilidad de la imagen y la coherencia de la secuencia temporal.

Entrenamiento basado en datos: El modelo se entrenó con un enorme conjunto de datos de 150 millones de videos y 1000 millones de imágenes, lo que permite generar contenido dinámico que se ajusta a las leyes físicas reales.

La combinación de estas tecnologías hace que Wan2.1-FLF2V-14B destaque en la generación de escenas de movimiento complejas, especialmente adecuado para aplicaciones creativas que requieren transiciones de alta fidelidad.

Amplia aplicación: Potenciación de la creación de contenido e investigación

La publicación de código abierto de Wan2.1-FLF2V-14B ofrece amplias perspectivas de aplicación en diversos campos. AIbase ha recopilado sus principales escenarios de aplicación:

Cine y publicidad: Generación rápida de videos de transición de alta calidad, reduciendo los costos de postproducción.

Desarrollo de juegos: Generación de animaciones de escenas dinámicas para juegos, mejorando la eficiencia del desarrollo.

Educación e investigación: Permite a los investigadores explorar la tecnología de generación de video y desarrollar nuevas aplicaciones de IA.

Creación personalizada: Los usuarios comunes pueden generar videos cortos personalizados con una simple entrada, enriqueciendo el contenido de las redes sociales.

Cabe destacar que el modelo admite la generación de indicaciones en chino, siendo particularmente efectivo en el manejo de escenarios en chino, lo que demuestra su capacidad de adaptación a entornos multilingües.

Umbral de acceso: Adaptable a hardware de consumo

Wan2.1-FLF2V-14B muestra una alta adaptabilidad en términos de requisitos de hardware. AIbase ha averiguado que, a pesar de su tamaño considerable de 1400 millones de parámetros, gracias a la optimización, el modelo puede funcionar en dispositivos con GPU de consumo como RTX4090, con una necesidad de memoria de video de tan solo 8.19 GB. La generación de un video de 5 segundos a 480p tarda aproximadamente 4 minutos, mientras que el tiempo de generación de video a 720p se mantiene dentro de un rango razonable. Además, el modelo proporciona una guía de implementación detallada, y los usuarios pueden iniciar rápidamente mediante el siguiente comando:

python

python generate.py --task flf2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "Una transición suave de una playa soleada a una noche estrellada"

La comunidad de código abierto también proporciona una interfaz de usuario web basada en Gradio, lo que facilita aún más el acceso para los usuarios no técnicos.

Respuesta de la comunidad y perspectivas futuras

Desde su lanzamiento, Wan2.1-FLF2V-14B ha generado una gran respuesta en la comunidad de código abierto. Los desarrolladores han elogiado su calidad de generación, su compatibilidad con el hardware y su estrategia de código abierto. AIbase ha observado que la comunidad ya ha comenzado a desarrollar el modelo secundariamente, explorando funciones de edición de video más complejas, como la generación de subtítulos dinámicos y el doblaje multilingüe. En el futuro, Alibaba planea optimizar aún más el modelo para admitir la generación de videos de mayor resolución (como 8K) y mayor duración, además de ampliar sus aplicaciones en áreas como video a audio (V2A).

Dirección del proyecto: https://github.com/Wan-Video/Wan2.1