¡La versión de código abierto de Alibaba Sora alcanza el primer puesto en Hugging Face! Wan2.1 supera a DeepSeek-R1

AIbase基地

Publicado elNoticias de IA · 20 minutos de lectura · Mar 4, 2025

Los modelos de código abierto de Alibaba siempre han atraído mucha atención. La serie Qwen, lanzada en junio del año pasado, ha tenido una buena reputación en la comunidad de desarrolladores, y sus modelos de 72B y 110B han llegado a la cima de la lista de modelos de código abierto de Hugging Face en varias ocasiones. Sin embargo, DeepSeek-V3, lanzado en diciembre del año pasado, superó a la serie Qwen en el mismo mes.

截屏2025-03-04 16.05.30.jpg

Según la última lista de la comunidad de código abierto Hugging Face, el modelo grande de lenguaje Wanxiang de Alibaba, recién lanzado hace una semana, ha alcanzado la cima de las listas de modelos populares y de espacio de modelos, superando a DeepSeek-R1. Actualmente, Wanxiang 2.1 (Wan2.1) ha superado el millón de descargas en Hugging Face y la comunidad Modai. En esta ocasión, Alibaba ha lanzado versiones de código abierto con 14B y 1.3B parámetros, compatibles con tareas de generación de vídeo a partir de texto e imagen a vídeo.

截屏2025-03-04 16.00.26.png

Introducción a Wan 2.1

Wan 2.1 es un conjunto completo y de código abierto de modelos básicos de vídeo desarrollado por el laboratorio Tongyi de Alibaba Group, con el objetivo de superar los límites tecnológicos de la generación de vídeo. Se basa en la estructura principal del transformador de difusión, y a través de una serie de tecnologías innovadoras, como un novedoso autocodificador variacional espacio-temporal (VAE), una estrategia de preentrenamiento escalable, la construcción de datos a gran escala y métricas de evaluación automatizadas, mejora la capacidad de generación, el rendimiento y la universalidad del modelo.

Este modelo incluye varias versiones con diferentes parámetros, como T2V-1.3B y T2V-14B (modelos de texto a vídeo), I2V-14B-720P e I2V-14B-480P (modelos de imagen a vídeo), para satisfacer las necesidades de diferentes usuarios y escenarios de aplicación.

Características destacadas de Wan 2.1

Rendimiento excepcional que supera a sus competidores: En múltiples pruebas de referencia, Wan 2.1 ha superado constantemente a los modelos de código abierto existentes y a las soluciones comerciales de vanguardia, alcanzando un nivel líder en la industria en cuanto a calidad, detalle y realismo de los vídeos generados. Por ejemplo, en la clasificación VBench, alcanzó la cima con una puntuación total del 86,22%, superando a numerosos modelos conocidos como Sora y HunyuanVideo.
Compatible con GPU de consumo: La versión T2V-1.3B tiene requisitos de hardware amigables, solo necesita 8.19 GB de VRAM y puede ejecutarse en GPU de consumo como la RTX 4090. En una RTX 4090, puede generar un vídeo de 5 segundos a 480P en aproximadamente 4 minutos, un rendimiento comparable incluso a algunos modelos de código cerrado, lo que reduce el umbral de uso y facilita su acceso a desarrolladores individuales e investigadores.
Cobertura completa de múltiples tareas: Posee una potente capacidad de procesamiento de múltiples tareas, que abarca funciones como texto a vídeo (T2V), imagen a vídeo (I2V), edición de vídeo, texto a imagen (T2I) y vídeo a audio (V2A). Los usuarios pueden generar vídeos a partir de descripciones de texto, convertir imágenes estáticas en vídeos dinámicos, editar y optimizar vídeos existentes, y generar imágenes a partir de texto y emparejar audio automáticamente a los vídeos.
Ventajas únicas en la generación de texto visual: Es el primer modelo de vídeo que admite la generación de texto en chino e inglés en los vídeos, y el texto generado tiene efectos especiales ricos, que pueden cambiar razonablemente según la escena y el soporte, y moverse junto con el soporte. Puede generar con precisión texto en diferentes estilos, ya sean fuentes de efectos especiales, fuentes de carteles o texto en escenas reales, lo que añade elementos enriquecidos a la creación de vídeos.
Reproducción precisa de movimientos complejos: Es experto en generar vídeos realistas que contienen movimientos complejos, pudiendo mostrar con precisión movimientos como la rotación, los saltos y los bailes del cuerpo humano, así como el movimiento rápido de objetos, los cambios de escena, etc. Wan 2.1 puede reproducir con éxito escenas de movimiento complejas, como la sincronización de movimientos en un baile hip-hop de varias personas, la fluidez de los tiros de un jugador de baloncesto y la postura natural de un cachorro corriendo en la nieve.
Simulación física de alta fidelidad: Puede simular con precisión las leyes físicas del mundo real y la interacción real entre los objetos. En la generación de vídeo, puede mostrar con realismo los efectos de colisión, rebote y corte de los objetos, así como el flujo de líquidos, los cambios de luz y sombra de los objetos, etc. Por ejemplo, puede simular las huellas dinámicas de la leche que fluye al volcar un vaso de vidrio transparente, o la interacción entre una fresa y el agua al sumergirla, haciendo que los vídeos generados sean más realistas.
Presentación de calidad de imagen cinematográfica: Puede generar vídeos con calidad cinematográfica, con texturas ricas y diversos efectos de estilo. Ajustando los parámetros y la configuración, se pueden lograr diferentes estilos visuales, como estilo retro, estilo de ciencia ficción, estilo realista, etc., ofreciendo a los usuarios una experiencia visual de alta calidad. Por ejemplo, un vídeo que simula un dron atravesando rascacielos en una noche de ciudad puede mostrar con realismo los complejos efectos de iluminación y el estilo arquitectónico, creando una atmósfera visual impactante.
Seguimiento preciso de instrucciones de texto largo: Tiene una gran capacidad de comprensión de instrucciones de texto largo y complejo, pudiendo generar vídeos de acuerdo con la descripción del texto, asegurando la integridad de los detalles. Wan 2.1 puede captar con precisión los requisitos, ya sean escenas de movimiento con múltiples sujetos o la construcción de entornos complejos y la creación de atmósferas. Por ejemplo, a partir de un texto largo como "Una fiesta alegre, un grupo de jóvenes de diversas razas bailan con entusiasmo en el centro de un amplio y luminoso salón...", puede generar un vídeo animado que se ajuste a la descripción, con personajes, movimientos y ambiente precisos.

截屏2025-03-04 16.14.37.jpg

Escenarios de aplicación

Producción de anuncios: Las agencias de publicidad pueden utilizar Wan 2.1 para generar rápidamente vídeos publicitarios atractivos en función de las características del producto y las necesidades de promoción. Por ejemplo, al crear un anuncio de un producto electrónico, se puede describir el funcionamiento y las características del producto mediante texto, combinándolo con efectos especiales y escenas geniales, para generar un vídeo promocional que destaque las ventajas del producto.
Creación de vídeos cortos: Los creadores de contenido pueden utilizar Wan 2.1 en plataformas de vídeos cortos para convertir textos creativos o imágenes en vídeos interesantes. Por ejemplo, para crear un vídeo corto de cocina, introduciendo texto como "El proceso de elaboración de un delicioso pastel", se puede generar el vídeo correspondiente, y añadir música y efectos de texto adecuados para mejorar la calidad y el atractivo del vídeo.
Ayuda en la producción cinematográfica: Los equipos de producción cinematográfica pueden utilizar Wan 2.1 en la fase inicial de ideación creativa y verificación de conceptos para visualizar rápidamente las escenas del guion. Por ejemplo, un director puede introducir un fragmento del guion para generar un sencillo vídeo de muestra, con el fin de evaluar el efecto de la escena y ajustar el plan de rodaje, ahorrando tiempo y costes.
Educación y enseñanza: Los profesores pueden utilizar Wan 2.1 para presentar conocimientos abstractos en forma de vídeos animados al crear vídeos educativos. Por ejemplo, en la enseñanza de física, se pueden simular el movimiento de los objetos y los fenómenos físicos para ayudar a los alumnos a comprender mejor los puntos clave; en la enseñanza de idiomas, se pueden generar vídeos con escenas de diálogo para crear un entorno de aprendizaje de idiomas.
Desarrollo de juegos: Los desarrolladores de juegos pueden utilizar Wan 2.1 para crear vídeos promocionales de juegos, animaciones de escenas, etc. Introduciendo descripciones de personajes, escenarios y tramas del juego, se pueden generar vídeos de alta calidad para la promoción del juego y para mejorar la experiencia del jugador.

image (13).png

Tutorial de uso de Wan 2.1

Preparación del entorno de instalación: En primer lugar, asegúrese de que su dispositivo cumple con los requisitos de funcionamiento. Si utiliza el modelo T2V-1.3B, una GPU de consumo (como la RTX 4090) debe tener al menos 8.19 GB de VRAM. A continuación, clone el repositorio de código, introduzca git clone https://github.com/Wan-Video/Wan2.1.git en la terminal y acceda al directorio del proyecto cd Wan2.1. A continuación, instale las dependencias, ejecute pip install -r requirements.txt y asegúrese de que torch >= 2.4.0.
Descarga del modelo: Puede utilizar huggingface-cli o modelscope-cli para descargar el modelo. Por ejemplo, con huggingface-cli, instale primero pip install "huggingface_hub[cli]" y, a continuación, según el modelo que necesite, por ejemplo, para descargar el modelo T2V-14B, introduzca huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B. Puede consultar la documentación oficial para obtener los enlaces de descarga y la resolución adecuada de los diferentes modelos, como los modelos I2V-14B-720P, I2V-14B-480P y T2V-1.3B.
Generación de vídeo a partir de texto
- Inferencia de una sola GPU sin extensión de indicaciones: Ejecute python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica" en la terminal, donde después de prompt se introduce la descripción específica de la generación del vídeo. Si utiliza el modelo T2V-1.3B y tiene problemas de memoria insuficiente, puede añadir los parámetros --offload_model True --t5_cpu y ajustar --sample_shift (8-12) y --sample_guide_scale 6 según el rendimiento.
- Inferencia de múltiples GPU sin extensión de indicaciones (FSDP + xDiT USP): Instale primero xfuser, ejecute pip install "xfuser>=0.4.1" y, a continuación, utilice torchrun para la inferencia de múltiples GPU, por ejemplo, torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Descripción de texto específica".
- Uso de la extensión de indicaciones: Si utiliza la extensión de indicaciones de la API de Dashscope, debe solicitar previamente dashscope.api_key y configurar la variable de entorno DASH_API_KEY. Por ejemplo, ejecute DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'. Si utiliza la extensión de modelo local, se utiliza por defecto el modelo Qwen de HuggingFace, puede elegir el modelo adecuado según la memoria de la GPU, como Qwen/Qwen2.5-14B-Instruct, y especificarlo mediante --prompt_extend_model, por ejemplo, python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "Descripción de texto específica" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'.
- Ejecución de gradio local: Acceda al directorio gradio, si utiliza la extensión de indicaciones de la API de Dashscope, ejecute DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B; si utiliza la extensión de modelo local, ejecute python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B.
Generación de vídeo a partir de imagen: Similar a la generación de vídeo a partir de texto, también se divide en pasos con y sin extensión de indicaciones. Sin extensión de indicaciones, la inferencia de una sola GPU ejecuta python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "Descripción de texto específica", tenga en cuenta que el parámetro size se determina según la relación de aspecto de la imagen de entrada. Para la inferencia de múltiples GPU, instale primero xfuser y, a continuación, ejecute torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Descripción de texto específica". Al utilizar la extensión de indicaciones, consulte el método de extensión de indicaciones de la generación de vídeo a partir de texto y elija utilizar la API de Dashscope o el modelo local según sea necesario. Al ejecutar gradio local, según la versión del modelo utilizado, ejecute el comando correspondiente en el directorio gradio, por ejemplo, si utiliza el modelo de 720P y la extensión de indicaciones de la API de Dashscope, ejecute DASH_API_KEY=your_key python i2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir_720p ./Wan2.1-I2V-14B-720P.
Generación de imagen a partir de texto: Sin extensión de indicaciones, la inferencia de una sola GPU ejecuta python generate.py --task t2i-14B --size 1024*1024 --ckpt_dir ./Wan2.1-T2V-14B --prompt 'Descripción de texto específica'; la inferencia de múltiples GPU ejecuta

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

La empresa noruega de robots 1X presenta su primer robot humanoide para uso doméstico, Neo, con un precio de 20.000 dólares y una tarifa de suscripción mensual de 499 dólares. Este robot de 1,68 metros está diseñado especialmente para tareas como lavar platos y ordenar, y utiliza un modelo de cooperación entre IA y operadores humanos a distancia, necesitando soporte externo para completar tareas complejas.

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

Amazon AWS anunció que invertirá otros 5.000 millones de dólares en Corea durante los próximos seis años para ampliar los centros de datos de inteligencia artificial, y colaborará con el Grupo SK para construir una instalación grande en Ulsan. La inversión total en Corea alcanzará los 12.600 millones de dólares, lo que demuestra su importancia estratégica para el mercado coreano.

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

La rápida evolución de las tecnologías de IA está transformando la industria de los videojuegos. La IA generativa trae nuevas oportunidades y desafíos, y empresas como Microsoft y Amazon están reorientando sus recursos hacia aplicaciones de IA. Los desarrolladores de videojuegos tienen opiniones diferentes sobre esto, y el futuro de la industria sigue siendo incierto.

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Qualcomm presenta dos chips de inferencia de IA en la nube, el AI200 y el AI250, que planea comercializar en 2026 y 2027, lo que marca su transición hacia una infraestructura integral de IA. Esta noticia impulso un aumento del 20% en el precio de las acciones en un solo día, el mayor aumento desde 2019. A diferencia de la estrategia completa de NVIDIA, Qualcomm se centra en el mercado de la inferencia de modelos grandes, destacando su ventaja en eficiencia energética y costo.

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

El 29 de octubre, Magic Leap y Google anunciaron una nueva colaboración en la conferencia Iniciativa de Inversión Futura de Riad, trabajando juntos para desarrollar un prototipo de gafas AR y promover avances en la tecnología de realidad aumentada. Ross Rosenburg, líder de Magic Leap, declaró que la empresa se está transformando de pionera en realidad aumentada a socio de ecosistema, aprovechando su experiencia en innovaciones ópticas y de visualización para alcanzar una nueva etapa de su visión.

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

El equipo de Tsinghua y Kuaishou Ling presenta el modelo SVG, que reemplaza al VAE, resolviendo el problema de entrelazamiento semántico, mejorando la eficiencia de entrenamiento en un 6200% y la velocidad de generación en un 3500%, lo que marca el paulatino abandono del VAE en el campo de generación de imágenes.

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

En la conferencia GTC de 2025, NVIDIA presentó el "Diseño Omniverse DSX", un esquema diseñado específicamente para centros de datos de IA de nivel giga, conocido como "fábrica de IA". Este esquema está basado en el marco Omniverse y admite diferentes escalas, desde 100 millones hasta 1.000 millones de vatios, con el objetivo de entrenar y ejecutar eficientemente modelos de IA grandes, satisfaciendo la creciente demanda de cálculo de IA, siendo un avance importante en la infraestructura de inteligencia artificial.

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

La televisión central informó sobre el problema de las noticias falsas creadas por la IA. Li Liang, vicepresidente de Douyin, respondió diciendo que la IA es una espada de doble filo: aunque es fácil propagar rumores, Douyin está utilizando la IA para combatirlos, desarrollando agentes inteligentes para buscar rápidamente información autoritativa y desmentir los rumores.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

¡La versión de código abierto de Alibaba Sora alcanza el primer puesto en Hugging Face! Wan2.1 supera a DeepSeek-R1

AIbase基地

Introducción a Wan 2.1

Características destacadas de Wan 2.1

Escenarios de aplicación

Tutorial de uso de Wan 2.1

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

Noticias de IA relacionadas recomendadas

20.000 dólares por un doble de tareas domésticas? El robot humanoide 1X Neo financiado por OpenAI inicia la venta anticipada y entrará en las casas estadounidenses el próximo año

Black Forest lanza el primer podcast de IA interactivo en China, los usuarios pueden hacer preguntas en cualquier momento

Amazon Cloud planea invertir otros 5.000 millones de dólares en Corea para impulsar la construcción de centros de datos de inteligencia artificial

El padre de DayZ compara su temor actual a la inteligencia artificial con el pánico anterior hacia Google y Wikipedia

Diario de IA: Douyin presenta un sistema automático de voz múltiple; Adobe Firefly Image 5 se actualiza significativamente; se lanza el modelo de voz SoulX-Podcast de Soul

Qualcomm entra en el centro de datos: lanza las tarjetas AI200/AI250 para competir contra NVIDIA, la acción sube un 20% en un día

Magic Leap anuncia una nueva colaboración con Google para desarrollar el prototipo de las próximas gafas AR

Tsinghua y Kuaishou lanzan un nuevo modelo de difusión SVG, la eficiencia de entrenamiento aumenta un 6200%

​NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

Vicepresidente de Douyin, Li Liang: La tecnología de IA ayuda a luchar contra la difusión de rumores y construir un entorno confiable para la plataforma

`Este artículo proviene de AIbase Daily`

`Noticias de IA relacionadas recomendadas`

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento

`Noticias de IA relacionadas recomendadas`

NVIDIA presenta un diseño revolucionario para centros de datos de IA que impulsa el cálculo de alto rendimiento