Anuncia VACE Wan2.1 que se ha vuelto de código abierto, lo que marca una gran innovación tecnológica en el campo de la edición de video. La versión Wan2.1-VACE-1.3B que se ha liberado soporta resolución de 480P, mientras que Wan2.1-VACE-14B puede manejar tanto 480P como 720P. El surgimiento de VACE brinda a los usuarios una experiencia de creación de video integral, permitiendo realizar múltiples tareas como la generación de video a partir de texto, la creación de referencias de imágenes, la edición local y la expansión de videos, sin necesidad de cambiar constantemente entre diferentes modelos o herramientas, lo que mejora significativamente la eficiencia y flexibilidad de la creación.
La gran fortaleza de VACE radica en su capacidad de reescritura controlada, pudiendo generar contenido basado en posturas humanas, flujo de movimiento, conservación de estructura, movimiento espacial y coloración, además de admitir la generación de video basada en referencias de sujetos y fondos. Esto hace que las operaciones de ajustar actitudes, trayectorias de movimientos o disposiciones escénicas sean mucho más fáciles después de completar la generación del video. Detrás de VACE se encuentra una tecnología central: su mecanismo de entrada multimodal, que construye un sistema de entrada unificado que integra texto, imágenes, videos, máscaras y señales de control. Para la entrada de imágenes, VACE puede admitir gráficos de referencia de objetos o fotogramas de video; para la entrada de video, los usuarios pueden usar operaciones como eliminar y ampliar localmente para regenerar con VACE; para regiones locales, los usuarios pueden especificar áreas de edición mediante señales binarias (0/1); para las señales de control, VACE admite mapas de profundidad, flujo óptico, diseño, escala de grises, esquemas y posturas.
VACE no solo permite reemplazar, agregar o eliminar contenido en áreas específicas del video, sino que también puede completar toda la duración del video según fragmentos arbitrarios o marcos iniciales y finales en la dimensión temporal, y en la dimensión espacial soporta la ampliación y generación de bordes o regiones de fondo, como el reemplazo de fondos — manteniendo el sujeto intacto mientras cambia el entorno del fondo según el prompt. Gracias a su potente módulo de entrada multimodal y la capacidad generativa de Wan2.1, VACE puede manejar fácilmente funciones que antes requerían modelos expertos tradicionales, incluidas capacidades de referencia de imágenes, reescritura de video y edición local. Además, VACE admite la combinación libre de varias capacidades de tareas individuales, rompiendo los límites de colaboración entre modelos expertos tradicionales. Como modelo unificado, puede integrar naturalmente capacidades atómicas como la generación de video a partir de texto, el control de postura, el reemplazo de fondo y la edición local sin necesidad de entrenar modelos nuevos para cada función individual.
Mecanismos flexibles como los de VACE no solo simplifican significativamente el flujo de creación, sino que también expanden enormemente los límites creativos de la generación de video por inteligencia artificial. Por ejemplo, combinando la funcionalidad de referencia de imágenes y reesculpidas de sujetos, se puede lograr la sustitución de objetos en videos; combinando el control de movimiento y la referencia de primer plano, se puede controlar la postura de imágenes estáticas; combinando la referencia de imágenes, la referencia de primer plano, la expansión de fondo y la extensión de duración, se puede transformar una imagen vertical en un video horizontal y agregar elementos de la imagen de referencia. A través del análisis y resumen de las formas de entrada de cuatro tipos de tareas comunes (video a partir de texto, video a partir de imágenes, video a partir de video y video local), VACE ha propuesto un patrón de entrada flexible y unificado llamado Unidad de Condiciones de Video (VCU). La UCV resume varios tipos de entradas contextuales multimodales en tres formas principales: texto, secuencia de fotogramas y secuencia de máscaras, unificando formalmente cuatro tipos de tareas de generación y edición de video. Las secuencias de fotogramas y máscaras de la UCV pueden superponerse matemáticamente, creando condiciones para la combinación libre de múltiples tareas.
En cuanto a la implementación técnica, uno de los mayores desafíos que enfrenta VACE es cómo codificar de manera uniforme entradas multimodales en secuencias de token procesables por el Transformer de difusión. VACE desacopla conceptos de la secuencia de Frame de la entrada VCU, dividiéndola en píxeles RGB que deben conservarse exactamente (secuencia de marcos fijos) y contenido que necesita ser regenerado según las indicaciones (secuencia de marcos variables). Luego, se codifica cada uno de estos tres tipos de entradas (marcos variables, marcos fijos, máscaras) en un espacio latente, donde los marcos variables y los marcos fijos son codificados al mismo espacio que el ruido del modelo DiT con un número de canales de 16; mientras que la secuencia de máscaras es mapeada a un espacio latente con dimensiones temporales y espaciales consistentes y 64 canales a través de operaciones de deformación y muestreo. Finalmente, se une la característica latente de las secuencias de marcos y máscaras y se mapea a través de parámetros entrenables a la secuencia de token de DiT.
En términos de estrategia de entrenamiento, VACE compara dos enfoques: el microajuste global y el microajuste de adaptadores de contexto. El microajuste global entrena todos los parámetros de DiT, obteniendo una velocidad de inferencia más rápida; mientras que el microajuste de adaptadores de contexto fija los parámetros originales del modelo base y solo copia y entrena selectivamente algunas capas originales del Transformer como adaptadores adicionales. Los experimentos muestran que ambos métodos tienen diferencias pequeñas en la pérdida de validación, pero el microajuste de adaptadores de contexto tiene una velocidad de convergencia más rápida y evita el riesgo de pérdida de capacidades básicas. Por lo tanto, esta versión abierta adopta el método de microajuste de adaptadores de contexto. A través de las evaluaciones cuantitativas de los modelos de la serie VACE publicados, se puede ver que el modelo ha mejorado claramente en varios indicadores clave en comparación con la versión previa de 1.3B.
- GitHub: https://github.com/Wan-Video/Wan2.1
- ModelScope: https://modelscope.cn/organization/Wan-AI
- Hugging Face: https://huggingface.co/Wan-AI
- Sitio Nacional: https://tongyi.aliyun.com/wanxiang/
- Sitio Internacional: https://wan.video