Am 19. September 2025 kündigte Alibaba Cloud die neue Bewegungsgenerationsmodell Wan2.2-Animate aus der Reihe Tongyi Wanxiang offiziell als Open Source an. Das Modell kann Personen, Anime-Charaktere und Tierfotos steuern und wird in Bereichen wie Kurzvideoerstellung, Tänzermustergenerierung und Anime-Produktion weit verbreitet eingesetzt. Nutzer können das Modell und den Code auf GitHub, HuggingFace und der Moba-Community herunterladen oder die API über die Plattform Alibaba Cloud BaiLian aufrufen oder direkt auf der offiziellen Website von Tongyi Wanxiang testen.

Das Wan2.2-Animate-Modell ist das Ergebnis einer umfassenden Weiterentwicklung des zuvor öffentlich zugänglichen Animate Anyone-Modells. Es bietet deutlich verbesserte Leistungen bei der Konsistenz der Personen und der Generierungsqualität und unterstützt zwei Modi: Bewegungsmuster und Rollenspiel. Im Rollenspielmodus können Sie ein Bild des Charakters und ein Referenzvideo eingeben, und das Modell überträgt die Bewegungen und Ausdrücke des Videocharakters auf den Bildcharakter, wodurch der Bildcharakter dynamische Darstellungsfähigkeit erhält. Im Mustermodus kann das Modell im Rahmen des Originalvideos die Bewegungen, Ausdrücke und Umgebung beibehalten und den Charakter im Video durch den Charakter im Bild ersetzen.

WeChat-Screenshot_20250919144208.png

Das Team von Tongyi Wanxiang hat eine große Datenbank für Personenvideos erstellt, die Sprechen, Gesichtsausdrücke und Körperbewegungen umfasst, und hat danach eine Nachtrainierung mit dem Tongyi Wanxiang-Bild-zu-Videomodell durchgeführt. Das Wan2.2-Animate-Modell vereinheitlicht die Rolleinformationen, Umgebungsdaten und Bewegungen in einem einheitlichen Format und ermöglicht damit eine einheitliche Modellkompatibilität für beide Inferenzmodi. Für die Körpersprache und Gesichtsausdrücke verwendet das Modell jeweils Knochensignale und implizite Merkmale und kombiniert sie mit einem Modul zur Bewegungsweiterleitung, um präzise Nachbildungen von Bewegungen und Ausdrücken zu erreichen. In der Ersetzungsmodus hat das Team zudem einen separaten Lichtfusion-LoRA entworfen, um eine perfekte Lichtfusion zu gewährleisten.

Testergebnisse zeigen, dass das Wan2.2-Animate in Schlüsselindikatoren wie Videogenerationsqualität, Hauptkonsistenz und Wahrnehmungsverlust die Open-Source-Modelle StableAnimator und LivePortrait übertrifft und somit das leistungsfähigste Bewegungsmodell ist. Bei menschlichen subjektiven Bewertungen übertraf das Wan2.2-Animate sogar geschlossene Modelle wie Runway Act-two.

  • GitHub:https://github.com/Wan-Video/Wan2.2

  • Moba-Community:https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B

  • HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-Animate-14B