Das Open-Source-Release von Tongyi Wanxiangs VACE markiert einen wichtigen technologischen Durchbruch im Bereich der Video-Editierung. Der im Rahmen dieser Open-Source-Initiative veröffentlichte Wan2.1-VACE-1.3B unterstützt eine Auflösung von 480P, während Wan2.1-VACE-14B sowohl 480P als auch 720P unterstützt. Die Einführung von VACE bietet Benutzern ein umfassendes Videoerstellungs-Erlebnis, da sie ohne den Wechsel zwischen verschiedenen Modellen oder Tools verschiedene Aufgaben wie Text-zu-Video-Generierung, Bildreferenzgenerierung, lokale Bearbeitung und Videoerweiterung durchführen kann. Dadurch wird die Produktivität und Flexibilität erheblich erhöht.

Die Stärke von VACE liegt in seiner kontrollierbaren Übereinschreibungsfähigkeit, die auf menschlichen Pose, Bewegungsfluß, Strukturbeibehaltung, räumlicher Bewegung und Färbung basiert. Darüber hinaus unterstützt es videobasierte Generierung unter Verwendung von Referenzen für Subjekte und Hintergründe. Dies macht es einfacher, nach der Videoerstellung Aufgaben wie das Anpassen von Personenauftritten, Bewegungssequenzen oder Szenenlayouts vorzunehmen. Das Kerntechnologie hinter VACE ist sein multimodales Eingabesystem, das einen vereinten Input-System für Text, Bild, Video, Maske und Steuersignale erstellt. Für Bildeingaben unterstützt VACE Objektreferenzbilder oder Videoframes; für Videoinformationen können Benutzer durch Löschoperationen und lokale Erweiterungen mit VACE neue Videos generieren; für lokale Regionen können Benutzer durch binäre Signale (0/1) die Bearbeitungsregionen spezifizieren; für Steuersignale unterstützt VACE Tiefenmaps, Bewegungsflüsse, Layouts, Graustufen, Zeichnungen und Pose.

WeChat_Screenshot_20250515081449.png

VACE ermöglicht nicht nur die Inhaltsersetzungen, -ergänzungen oder -entfernungen in bestimmten Regionen des Videos, sondern kann auch die gesamte Videolaufzeit basierend auf beliebigen Abschnitten oder ersten und letzten Frames vervollständigen. Im Raumdimensionalität unterstützt es die Erweiterung und Generierung von Bildrand- oder Hintergrundregionen, wie z.B. die Hintergrundersatz-Funktionalität – wobei das Hauptobjekt unverändert bleibt, während der Hintergrund basierend auf dem Prompt ersetzt wird. Dank des leistungsstarken multimodalen Eingabemoduls und der Generierungsfähigkeiten von Wan2.1 kann VACE traditionelle Expertenmodelle übernehmen, einschließlich der Fähigkeiten zur Bildreferenzgenerierung, Video-Umbildung und lokaler Bearbeitung. Zusätzlich unterstützt VACE die freie Kombination vieler Einzelaktivitäten, was die bisherige Zusammenarbeit zwischen Expertenmodellen verbessert. Als einheitliches Modell kann es atomare Fähigkeiten wie text-zu-video-Generierung, Pose-Kontrolle, Hintergrundersatz und lokale Bearbeitung natürlich integrieren, ohne dafür separate Modelle trainieren zu müssen.

Die flexible Kombinationsmechanik von VACE vereinfacht nicht nur den kreativen Prozess erheblich, sondern erweitert auch die kreative Grenzen der AI-basierten Videoerzeugung. Zum Beispiel kann durch die Kombination von Bildreferenz und Gegenstandsumformung Gegenstände im Video ersetzt werden; durch die Kombination von Bewegungssteuerung und Referenz des ersten Frames können Statische Bilder in dynamische Steuerungen überführt werden; durch die Kombination von Bildreferenz, Referenz des ersten Frames, Hintergrunderweiterung und Längenerweiterung können vertikale Bilder in horizontale Videos umgewandelt werden, wobei Elemente aus dem Referenzbild eingebaut werden. Durch die Analyse und Zusammenfassung der Eingabeparameter für vier gängige Aufgabenarten (Text-zu-Video, Bild-zu-Video, Video-zu-Video und lokale Video-Generierung) hat VACE eine flexible und einheitliche Eingabeparadigme – Video Conditions Unit (VCU) – vorgestellt. VCU fasst die verschiedenen multimodalen Eingaben in drei Formen zusammen: Text, Framesequenz und Maskensequenz, was die Eingabeformate für vier Video-Generierungs- und -Bearbeitungsaufgaben vereinheitlicht. Die Framesequenz und Maskensequenz von VCU können mathematisch übereinander addiert werden, was die Freiheit zur Kombination vieler Aktivitäten ermöglicht.

In technischer Hinsicht muss VACE ein großes Problem lösen: Wie kann multimodales Eingabedaten in eine Tokensequenz transformiert werden, die vom Diffusion-Transformer verarbeitet werden kann? VACE trennt die Framesequenz von VCU-Konzeptuell und teilt sie in RGB-Pixel (unveränderliche Framesequenz) und Inhalt, der basierend auf der Eingabe neu generiert werden muss (veränderliche Framesequenz). Dann wird für diese drei Arten von Eingaben (veränderliche Frames, unveränderliche Frames, Masken) eine latente Raumcodierung durchgeführt, wobei veränderliche und unveränderliche Frames durch ein VAE in den selben Raum wie die Raussementräume des DiT-Modells kodiert werden, wobei die Kanalkapazität 16 beträgt. Die Maskensequenz wird durch Deformation und Sampling in einen latenten Raum mit einer konstanten Raum-Zeit-Dimension und einer Kanalkapazität von 64 abgebildet. Schließlich werden die latente Raumeigenschaften der Framesequenz und Maskensequenz zusammengeführt und durch trainable Parameter in eine Tokensequenz des DiT-Modells transformiert.

Was die Trainingsstrategie betrifft, hat VACE zwei Ansätze verglichen: Globalfine-Tuning und Context-Adapterfine-Tuning. Beim Globalfine-Tuning werden alle DiT-Parameter trainiert, wodurch eine schnellere Inferenzgeschwindigkeit erreicht wird. Der Context-Adapterfine-Tuning-Ansatz fixiert die Parameter des ursprünglichen Basismodells und trainiert nur selektiv einige der ursprünglichen Transformer-Schichten als zusätzliche Adapter. Experimente zeigen, dass die Validationsverluste bei beiden Ansätzen ähnlich sind, jedoch der Context-Adapterfine-Tuning einen schnelleren Konvergenzprozess aufweist und das Risiko der Basisfähigkeitsverluste vermeidet. Daher verwendet die aktuelle Open-Source-Version die Methode des Context-Adapterfine-Tunings. Die veröffentlichten Ergebnisse der VACE-Modellqualifikation zeigen, dass die Modelle in mehreren Schlüsseleigenschaften im Vergleich zum 1.3B-preview-Version deutlich verbessert wurden.

- GitHub: https://github.com/Wan-Video/Wan2.1

- Magda: https://modelscope.cn/organization/Wan-AI

- Hugging Face: https://huggingface.co/Wan-AI

- Internationale Seite: https://wan.video