Los modelos de código abierto de Alibaba siempre han atraído mucha atención. La serie Qwen, lanzada en junio del año pasado, ha tenido una buena reputación en la comunidad de desarrolladores, y sus modelos de 72B y 110B han llegado a la cima de la lista de modelos de código abierto de Hugging Face en varias ocasiones. Sin embargo, DeepSeek-V3, lanzado en diciembre del año pasado, superó a la serie Qwen en el mismo mes.

Según la última lista de la comunidad de código abierto Hugging Face, el modelo grande de lenguaje Wanxiang de Alibaba, recién lanzado hace una semana, ha alcanzado la cima de las listas de modelos populares y de espacio de modelos, superando a DeepSeek-R1. Actualmente, Wanxiang 2.1 (Wan2.1) ha superado el millón de descargas en Hugging Face y la comunidad Modai. En esta ocasión, Alibaba ha lanzado versiones de código abierto con 14B y 1.3B parámetros, compatibles con tareas de generación de vídeo a partir de texto e imagen a vídeo.

Introducción a Wan 2.1
Wan 2.1 es un conjunto completo y de código abierto de modelos básicos de vídeo desarrollado por el laboratorio Tongyi de Alibaba Group, con el objetivo de superar los límites tecnológicos de la generación de vídeo. Se basa en la estructura principal del transformador de difusión, y a través de una serie de tecnologías innovadoras, como un novedoso autocodificador variacional espacio-temporal (VAE), una estrategia de preentrenamiento escalable, la construcción de datos a gran escala y métricas de evaluación automatizadas, mejora la capacidad de generación, el rendimiento y la universalidad del modelo.
Este modelo incluye varias versiones con diferentes parámetros, como T2V-1.3B y T2V-14B (modelos de texto a vídeo), I2V-14B-720P e I2V-14B-480P (modelos de imagen a vídeo), para satisfacer las necesidades de diferentes usuarios y escenarios de aplicación.

Características destacadas de Wan 2.1
- Rendimiento excepcional que supera a sus competidores: En múltiples pruebas de referencia, Wan 2.1 ha superado constantemente a los modelos de código abierto existentes y a las soluciones comerciales de vanguardia, alcanzando un nivel líder en la industria en cuanto a calidad, detalle y realismo de los vídeos generados. Por ejemplo, en la clasificación VBench, alcanzó la cima con una puntuación total del 86,22%, superando a numerosos modelos conocidos como Sora y HunyuanVideo.
- Compatible con GPU de consumo: La versión T2V-1.3B tiene requisitos de hardware amigables, solo necesita 8.19 GB de VRAM y puede ejecutarse en GPU de consumo como la RTX 4090. En una RTX 4090, puede generar un vídeo de 5 segundos a 480P en aproximadamente 4 minutos, un rendimiento comparable incluso a algunos modelos de código cerrado, lo que reduce el umbral de uso y facilita su acceso a desarrolladores individuales e investigadores.
- Cobertura completa de múltiples tareas: Posee una potente capacidad de procesamiento de múltiples tareas, que abarca funciones como texto a vídeo (T2V), imagen a vídeo (I2V), edición de vídeo, texto a imagen (T2I) y vídeo a audio (V2A). Los usuarios pueden generar vídeos a partir de descripciones de texto, convertir imágenes estáticas en vídeos dinámicos, editar y optimizar vídeos existentes, y generar imágenes a partir de texto y emparejar audio automáticamente a los vídeos.
- Ventajas únicas en la generación de texto visual: Es el primer modelo de vídeo que admite la generación de texto en chino e inglés en los vídeos, y el texto generado tiene efectos especiales ricos, que pueden cambiar razonablemente según la escena y el soporte, y moverse junto con el soporte. Puede generar con precisión texto en diferentes estilos, ya sean fuentes de efectos especiales, fuentes de carteles o texto en escenas reales, lo que añade elementos enriquecidos a la creación de vídeos.
- Reproducción precisa de movimientos complejos: Es experto en generar vídeos realistas que contienen movimientos complejos, pudiendo mostrar con precisión movimientos como la rotación, los saltos y los bailes del cuerpo humano, así como el movimiento rápido de objetos, los cambios de escena, etc. Wan 2.1 puede reproducir con éxito escenas de movimiento complejas, como la sincronización de movimientos en un baile hip-hop de varias personas, la fluidez de los tiros de un jugador de baloncesto y la postura natural de un cachorro corriendo en la nieve.
- Simulación física de alta fidelidad: Puede simular con precisión las leyes físicas del mundo real y la interacción real entre los objetos. En la generación de vídeo, puede mostrar con realismo los efectos de colisión, rebote y corte de los objetos, así como el flujo de líquidos, los cambios de luz y sombra de los objetos, etc. Por ejemplo, puede simular las huellas dinámicas de la leche que fluye al volcar un vaso de vidrio transparente, o la interacción entre una fresa y el agua al sumergirla, haciendo que los vídeos generados sean más realistas.
- Presentación de calidad de imagen cinematográfica: Puede generar vídeos con calidad cinematográfica, con texturas ricas y diversos efectos de estilo. Ajustando los parámetros y la configuración, se pueden lograr diferentes estilos visuales, como estilo retro, estilo de ciencia ficción, estilo realista, etc., ofreciendo a los usuarios una experiencia visual de alta calidad. Por ejemplo, un vídeo que simula un dron atravesando rascacielos en una noche de ciudad puede mostrar con realismo los complejos efectos de iluminación y el estilo arquitectónico, creando una atmósfera visual impactante.
- Seguimiento preciso de instrucciones de texto largo: Tiene una gran capacidad de comprensión de instrucciones de texto largo y complejo, pudiendo generar vídeos de acuerdo con la descripción del texto, asegurando la integridad de los detalles. Wan 2.1 puede captar con precisión los requisitos, ya sean escenas de movimiento con múltiples sujetos o la construcción de entornos complejos y la creación de atmósferas. Por ejemplo, a partir de un texto largo como "Una fiesta alegre, un grupo de jóvenes de diversas razas bailan con entusiasmo en el centro de un amplio y luminoso salón...", puede generar un vídeo animado que se ajuste a la descripción, con personajes, movimientos y ambiente precisos.

Escenarios de aplicación
- Producción de anuncios: Las agencias de publicidad pueden utilizar Wan 2.1 para generar rápidamente vídeos publicitarios atractivos en función de las características del producto y las necesidades de promoción. Por ejemplo, al crear un anuncio de un producto electrónico, se puede describir el funcionamiento y las características del producto mediante texto, combinándolo con efectos especiales y escenas geniales, para generar un vídeo promocional que destaque las ventajas del producto.
- Creación de vídeos cortos: Los creadores de contenido pueden utilizar Wan 2.1 en plataformas de vídeos cortos para convertir textos creativos o imágenes en vídeos interesantes. Por ejemplo, para crear un vídeo corto de cocina, introduciendo texto como "El proceso de elaboración de un delicioso pastel", se puede generar el vídeo correspondiente, y añadir música y efectos de texto adecuados para mejorar la calidad y el atractivo del vídeo.
- Ayuda en la producción cinematográfica: Los equipos de producción cinematográfica pueden utilizar Wan 2.1 en la fase inicial de ideación creativa y verificación de conceptos para visualizar rápidamente las escenas del guion. Por ejemplo, un director puede introducir un fragmento del guion para generar un sencillo vídeo de muestra, con el fin de evaluar el efecto de la escena y ajustar el plan de rodaje, ahorrando tiempo y costes.
- Educación y enseñanza: Los profesores pueden utilizar Wan 2.1 para presentar conocimientos abstractos en forma de vídeos animados al crear vídeos educativos. Por ejemplo, en la enseñanza de física, se pueden simular el movimiento de los objetos y los fenómenos físicos para ayudar a los alumnos a comprender mejor los puntos clave; en la enseñanza de idiomas, se pueden generar vídeos con escenas de diálogo para crear un entorno de aprendizaje de idiomas.
- Desarrollo de juegos: Los desarrolladores de juegos pueden utilizar Wan 2.1 para crear vídeos promocionales de juegos, animaciones de escenas, etc. Introduciendo descripciones de personajes, escenarios y tramas del juego, se pueden generar vídeos de alta calidad para la promoción del juego y para mejorar la experiencia del jugador.

Tutorial de uso de Wan 2.1
- Preparación del entorno de instalación: En primer lugar, asegúrese de que su dispositivo cumple con los requisitos de funcionamiento. Si utiliza el modelo T2V-1.3B, una GPU de consumo (como la RTX 4090) debe tener al menos 8.19 GB de VRAM. A continuación, clone el repositorio de código, introduzca
git clone https://github.com/Wan-Video/Wan2.1.giten la terminal y acceda al directorio del proyectocd Wan2.1. A continuación, instale las dependencias, ejecutepip install -r requirements.txty asegúrese de quetorch >= 2.4.0. - Descarga del modelo: Puede utilizar
huggingface-cliomodelscope-clipara descargar el modelo. Por ejemplo, conhuggingface-cli, instale primeropip install "huggingface_hub[cli]"y, a continuación, según el modelo que necesite, por ejemplo, para descargar el modelo T2V-14B, introduzcahuggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B. Puede consultar la documentación oficial para obtener los enlaces de descarga y la resolución adecuada de los diferentes modelos, como los modelos I2V-14B-720P, I2V-14B-480P y T2V-1.3B. - Generación de vídeo a partir de texto
- Inferencia de una sola GPU sin extensión de indicaciones: Ejecute
python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica"en la terminal, donde después depromptse introduce la descripción específica de la generación del vídeo. Si utiliza el modelo T2V-1.3B y tiene problemas de memoria insuficiente, puede añadir los parámetros--offload_model True --t5_cpuy ajustar--sample_shift(8-12) y--sample_guide_scale 6según el rendimiento. - Inferencia de múltiples GPU sin extensión de indicaciones (FSDP + xDiT USP): Instale primero
xfuser, ejecutepip install "xfuser>=0.4.1"y, a continuación, utilicetorchrunpara la inferencia de múltiples GPU, por ejemplo,torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Descripción de texto específica". - Uso de la extensión de indicaciones: Si utiliza la extensión de indicaciones de la API de Dashscope, debe solicitar previamente
dashscope.api_keyy configurar la variable de entornoDASH_API_KEY. Por ejemplo, ejecuteDASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'. Si utiliza la extensión de modelo local, se utiliza por defecto el modelo Qwen de HuggingFace, puede elegir el modelo adecuado según la memoria de la GPU, comoQwen/Qwen2.5-14B-Instruct, y especificarlo mediante--prompt_extend_model, por ejemplo,python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'. - Ejecución de gradio local: Acceda al directorio
gradio, si utiliza la extensión de indicaciones de la API de Dashscope, ejecuteDASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B; si utiliza la extensión de modelo local, ejecutepython t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B.
- Inferencia de una sola GPU sin extensión de indicaciones: Ejecute
- Generación de vídeo a partir de imagen: Similar a la generación de vídeo a partir de texto, también se divide en pasos con y sin extensión de indicaciones. Sin extensión de indicaciones, la inferencia de una sola GPU ejecuta
python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "Descripción de texto específica", tenga en cuenta que el parámetrosizese determina según la relación de aspecto de la imagen de entrada. Para la inferencia de múltiples GPU, instale primeroxfusery, a continuación, ejecutetorchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Descripción de texto específica". Al utilizar la extensión de indicaciones, consulte el método de extensión de indicaciones de la generación de vídeo a partir de texto y elija utilizar la API de Dashscope o el modelo local según sea necesario. Al ejecutar gradio local, según la versión del modelo utilizado, ejecute el comando correspondiente en el directoriogradio, por ejemplo, si utiliza el modelo de 720P y la extensión de indicaciones de la API de Dashscope, ejecuteDASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P. - Generación de imagen a partir de texto: Sin extensión de indicaciones, la inferencia de una sola GPU ejecuta
python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt 'Descripción de texto específica'; la inferencia de múltiples GPU ejecuta





