Alis Open-Source-Modelle ziehen stets große Aufmerksamkeit auf sich. Die im Juni letzten Jahres veröffentlichte Qwen-Serie erfreut sich in der Entwickler-Community großer Beliebtheit, wobei die 72B- und 110B-Modelle mehrfach die Spitze der Open-Source-Modell-Rangliste von Hugging Face erreicht haben. Im Dezember letzten Jahres übertraf das im Dezember veröffentlichte DeepSeek-V3 jedoch die Qwen-Serie.

截屏2025-03-04 16.05.30.jpg

Laut der neuesten Rangliste der Open-Source-Community Hugging Face hat das erst vor einer Woche veröffentlichte Ali Wanxiang-Großmodell erfolgreich die Spitze der Modell-Hitliste und der Modell-Space-Rangliste erobert und DeepSeek-R1 hinter sich gelassen. Derzeit übersteigt die Gesamtzahl der Downloads von Wanxiang 2.1 (Wan2.1) bei Hugging Face und der Moda-Community bereits eine Million. Ali hat bei dieser Veröffentlichung die Parametergrößen 14B und 1.3B als Open Source bereitgestellt und unterstützt gleichzeitig Text-zu-Video- und Bild-zu-Video-Aufgaben.

截屏2025-03-04 16.00.26.png

Wan 2.1 Einführung

Wan 2.1 ist ein umfassendes und Open-Source-basiertes Videobasismodell, das von den Alibaba Group Tongyi Labs entwickelt wurde und darauf abzielt, die technischen Grenzen der Videogenerierung zu durchbrechen. Es basiert auf der gängigen Diffusions-Transformer-Struktur und verbessert durch eine Reihe innovativer Technologien wie neuartige spatiotemporale Variations-Autoencoder (VAE), skalierbare Pre-Training-Strategien, den Aufbau großer Datenmengen und automatisierte Bewertungsmetriken die Generierungsfähigkeit, Leistung und Universalität des Modells.

Das Modell umfasst mehrere Versionen mit unterschiedlichen Parametern, wie z. B. T2V-1.3B und T2V-14B (Text-zu-Video-Modelle), I2V-14B-720P und I2V-14B-480P (Bild-zu-Video-Modelle), um die Bedürfnisse verschiedener Benutzer und Anwendungsszenarien zu erfüllen.

GlAdnyjXcAAhXyc.jpeg

Wan 2.1 Funktionshighlights

  • Überragende Leistung übertrifft die Konkurrenz: In zahlreichen Benchmark-Tests übertrifft Wan 2.1 kontinuierlich bestehende Open-Source-Modelle und Spitzensolutions aus dem kommerziellen Bereich und erreicht branchenführende Ergebnisse in Bezug auf Qualität, Detailgenauigkeit und Realismus der generierten Videos. Beispielsweise erreichte es in der VBench-Rangliste mit einer Gesamtpunktzahl von 86,22 % den ersten Platz und übertraf damit zahlreiche bekannte Modelle wie Sora und HunyuanVideo.
  • Betrieb auf Consumer-Grade-GPUs möglich: Die T2V-1.3B-Version stellt geringe Anforderungen an die Hardware und benötigt nur 8,19 GB VRAM, um auf Consumer-Grade-GPUs wie der RTX 4090 zu laufen. Auf einer RTX 4090 kann in etwa 4 Minuten ein 5 Sekunden langes 480P-Video generiert werden. Die Leistung ist mit einigen Closed-Source-Modellen vergleichbar, wodurch die Nutzungsschwelle gesenkt und die Verwendung für Einzelentwickler und Forscher vereinfacht wird.
  • Umfassende Abdeckung verschiedener Aufgaben: Verfügt über leistungsstarke Multitasking-Fähigkeiten und umfasst Funktionen wie Text-zu-Video (T2V), Bild-zu-Video (I2V), Videobearbeitung, Text-zu-Bild (T2I) und Video-zu-Audio (V2A). Benutzer können Videos anhand von Textbeschreibungen generieren, statische Bilder in dynamische Videos umwandeln, vorhandene Videos bearbeiten und optimieren sowie Bilder aus Text generieren und Videos automatisch mit Audio unterlegen.
  • Einzigartige Vorteile bei der visuellen Textgenerierung: Ist das erste Videomodell, das die Generierung von chinesischen und englischen Texten in Videos unterstützt. Die generierten Texte verfügen über vielfältige Effekte und können sich an Szenen und Träger anpassen und sich mit diesen mitbewegen. Ob Spezialschriftarten, Plakat-Schriftarten oder Texte in realen Szenen – alles wird präzise generiert und bereichert die Videoproduktion.
  • Präzise Wiedergabe komplexer Bewegungen: Ist spezialisiert auf die Generierung realistischer Videos mit komplexen Bewegungen und kann Rotationen, Sprünge, Tanzbewegungen von Personen sowie schnelle Bewegungen von Objekten und Szenenwechsel präzise darstellen. Komplexe Bewegungsszenen wie synchronisierte Bewegungen mehrerer Personen beim Hip-Hop-Tanzen, flüssige Wurfbilder von Basketballspielern oder die natürliche Haltung eines Hundes, der im Schnee rennt, werden von Wan 2.1 hervorragend wiedergegeben.
  • Hohe Realitätsnähe der physikalischen Simulation: Kann die physikalischen Gesetze der realen Welt und die realen Interaktionen zwischen Objekten präzise simulieren. Bei der Videogenerierung können Kollisionen, Abpraller, Schnitteffekte von Objekten sowie Flüssigkeitsströmungen und Licht- und Schattenveränderungen von Objekten realistisch dargestellt werden. Beispielsweise können die dynamischen Spuren von Milch, die aus einem umgekippten Glas fließt, oder die Wechselwirkungskraft zwischen einer Erdbeere und Wasser beim Eintauchen simuliert werden, wodurch die generierten Videos realistischer wirken.
  • Filmreife Bildqualität: Kann Videos in Filmqualität mit reichhaltigen Texturen und vielfältigen stilistischen Effekten generieren. Durch Anpassung von Parametern und Einstellungen lassen sich verschiedene visuelle Stile wie Retro, Science-Fiction und Realismus erzielen, die dem Benutzer ein hochwertiges Seherlebnis bieten. Beispielsweise kann ein Video simuliert werden, das eine Drohne zeigt, die durch die Hochhäuser einer nächtlichen Stadtlandschaft fliegt, wobei komplexe Lichteffekte und Architekturstile realistisch dargestellt werden und eine beeindruckende visuelle Atmosphäre geschaffen wird.
  • Präzise Befolgung langer Textanweisungen: Verfügt über eine starke Fähigkeit zum Verständnis komplexer langer Textanweisungen und kann Videos gemäß der Textbeschreibung generieren, um die Vollständigkeit der Details sicherzustellen. Ob es sich um Bewegungsszenen mit mehreren Akteuren oder um komplexe Umgebungen, die geschaffen und eine Atmosphäre erzeugt werden soll, handelt, Wan 2.1 kann die Anforderungen genau erfassen. Beispielsweise kann anhand eines langen Textes wie „Eine fröhliche Partyszene, in der eine Gruppe junger Menschen verschiedener Herkunft in einem geräumigen, hellen Wohnzimmer ausgelassen tanzt…“ ein lebhaftes Video generiert werden, wobei die Figuren, Bewegungen und die Atmosphäre der Szene präzise dargestellt werden.

截屏2025-03-04 16.14.37.jpg

Anwendungsbereiche

  • Werbeproduktion: Werbeagenturen können Wan 2.1 nutzen, um schnell ansprechende Werbevideos basierend auf den Produkteigenschaften und den Anforderungen der Werbekampagne zu erstellen. Bei der Erstellung von Werbung für Elektronikprodukte können beispielsweise die Funktionen und Eigenschaften des Produkts durch Textbeschreibungen beschrieben und mit coolen Spezialeffekten und Szenen kombiniert werden, um ein Werbevideo zu erstellen, das die Vorteile des Produkts hervorhebt.
  • Kurzvideo-Erstellung: Einzelne Ersteller können Wan 2.1 verwenden, um kreative Texte oder Bilder in interessante Videos umzuwandeln, wenn sie Inhalte auf Kurzvideo-Plattformen erstellen. Beispielsweise kann bei der Erstellung von Kochvideos durch Eingabe von Texten wie „Der Herstellungsprozess eines köstlichen Kuchens“ ein entsprechendes Video erstellt werden. Dem Video können auch passende Musik und Texteffekte hinzugefügt werden, um die Qualität und Attraktivität des Videos zu verbessern.
  • Unterstützung bei der Filmherstellung: Filmteams können Wan 2.1 in der Phase der kreativen Konzeption und der Konzepterprobung nutzen, um Szenen aus dem Drehbuch schnell zu visualisieren. Beispielsweise kann ein Regisseur durch Eingabe von Drehbuchausschnitten einfache Videoproben erstellen, um die Szeneneffekte zu bewerten und den Drehplan anzupassen, wodurch Zeit und Kosten gespart werden.
  • Bildung und Lehre: Lehrer können Wan 2.1 verwenden, um abstrakte Kenntnisse in anschaulicher Videoform darzustellen, wenn sie Lehrvideos erstellen. Beispielsweise können in der Physik die Bewegungen von Objekten und physikalische Phänomene simuliert werden, um den Schülern das Verständnis der Kenntnisse zu erleichtern; im Sprachunterricht können Videos mit Dialogszenen erstellt werden, um eine Lernumgebung zu schaffen.
  • Spielentwicklung: Spieleentwickler können Wan 2.1 verwenden, um Werbevideos für Spiele, Zwischensequenzen usw. zu erstellen. Durch Eingabe von Beschreibungen der Charaktere, Szenen und Handlungsstränge im Spiel können hochwertige Videos erstellt werden, die für die Spielwerbung und die Verbesserung des Spielerlebnisses verwendet werden können.

image (13).png

Wan 2.1 Benutzerhandbuch

  1. Vorbereitung der Installationsumgebung: Stellen Sie zunächst sicher, dass Ihr Gerät die Anforderungen erfüllt. Wenn Sie das T2V-1.3B-Modell verwenden, benötigen Sie mindestens 8,19 GB VRAM auf einer Consumer-Grade-GPU (z. B. RTX 4090). Klonen Sie dann das Code-Repository, geben Sie im Terminal git clone https://github.com/Wan-Video/Wan2.1.git ein und wechseln Sie in das Projektverzeichnis cd Wan2.1. Installieren Sie anschließend die Abhängigkeiten mit pip install -r requirements.txt und stellen Sie sicher, dass torch >= 2.4.0 ist.
  2. Modell-Download: Sie können das Modell mit huggingface-cli oder modelscope-cli herunterladen. Nehmen wir huggingface-cli als Beispiel. Installieren Sie zuerst pip install "huggingface_hub[cli]" und geben Sie dann, je nach gewünschtem Modell, z. B. zum Herunterladen des T2V-14B-Modells, huggingface-cli download Wan-AI/Wan2.1-T2V-14B --local-dir ./Wan2.1-T2V-14B ein. Die Download-Links und die entsprechenden Auflösungen für verschiedene Modelle finden Sie in der offiziellen Dokumentation, z. B. I2V-14B-720P, I2V-14B-480P, T2V-1.3B usw. Es gibt entsprechende Downloadmethoden.
  3. Text-zu-Video-Generierung
    • Single-GPU-Inferenz ohne Prompt-Erweiterung: Führen Sie im Terminal python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "konkrete Textbeschreibung" aus, wobei nach prompt die konkrete Beschreibung für die Videogenerierung eingegeben wird. Wenn Sie das T2V-1.3B-Modell verwenden und ein Problem mit unzureichendem Speicherplatz auftreten sollte, können Sie die Parameter --offload_model True --t5_cpu hinzufügen und --sample_shift (8 - 12) und --sample_guide_scale 6 je nach Leistung anpassen.
    • Multi-GPU-Inferenz ohne Prompt-Erweiterung (FSDP + xDiT USP): Installieren Sie zuerst xfuser mit pip install "xfuser>=0.4.1" und führen Sie dann die Multi-GPU-Inferenz mit torchrun durch, z. B. torchrun --nproc_per_node=8 generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "konkrete Textbeschreibung".
    • Verwendung der Prompt-Erweiterung: Wenn Sie die Dashscope-API-Erweiterung für Prompts verwenden, müssen Sie zuvor einen dashscope.api_key beantragen und die Umgebungsvariable DASH_API_KEY konfigurieren. Führen Sie z. B. DASH_API_KEY=your_key python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "konkrete Textbeschreibung" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh' aus. Wenn Sie die lokale Modell-Erweiterung verwenden, wird standardmäßig das Qwen-Modell auf HuggingFace verwendet. Sie können das geeignete Modell je nach GPU-Speicher auswählen, z. B. Qwen/Qwen2.5-14B-Instruct usw., und es mit --prompt_extend_model angeben, z. B. python generate.py --task t2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-T2V-14B --prompt "konkrete Textbeschreibung" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'.
    • Ausführen von lokalem Gradio: Wechseln Sie in das Verzeichnis gradio. Wenn Sie die Dashscope-API-Erweiterung für Prompts verwenden, führen Sie DASH_API_KEY=your_key python t2v_14B_singleGPU.py --prompt_extend_method 'dashscope' --ckpt_dir ./Wan2.1-T2V-14B aus; wenn Sie die lokale Modell-Erweiterung für Prompts verwenden, führen Sie python t2v_14B_singleGPU.py --prompt_extend_method 'local_qwen' --ckpt_dir ./Wan2.1-T2V-14B aus.
  4. Bild-zu-Video-Generierung: Ähnlich wie bei der Text-zu-Video-Generierung gibt es auch Schritte mit und ohne Prompt-Erweiterung. Bei der Inferenz ohne Prompt-Erweiterung wird für die Single-GPU-Inferenz python generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --prompt "konkrete Textbeschreibung" ausgeführt. Beachten Sie, dass der Parameter size an das Seitenverhältnis des Eingabebildes angepasst werden muss. Bei der Multi-GPU-Inferenz wird zuerst xfuser installiert und dann torchrun --nproc_per_node=8 generate.py --task i2v-14B --size 1280*720 --ckpt_dir ./Wan2.1-I2V-14B-720P --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "konkrete Textbeschreibung" ausgeführt. Bei der Verwendung der Prompt-Erweiterung verweisen Sie auf die Methode der Text-zu-Video-Generierung und wählen Sie nach Bedarf die Verwendung der Dashscope-API oder des lokalen Modells zur Erweiterung. Wenn Sie lokales Gradio ausführen, führen Sie im Verzeichnis gradio