2025年9月19日、アリババクラウドは通義万相の新しい動作生成モデル「Wan2.2-Animate」が正式にオープンソースになったことを発表しました。このモデルは人物、アニメキャラクターや動物の画像を駆動し、短編動画制作、ダンステンプレート生成、アニメ制作など幅広い分野で利用できます。ユーザーはGitHub、HuggingFaceおよび魔搭コミュニティからモデルとコードをダウンロードできるほか、アリババクラウドの百煉プラットフォームでAPIを呼び出したり、通義万相の公式サイトで直接体験することもできます。
Wan2.2-Animateモデルは、以前にオープンソースされたAnimate Anyoneモデルを全面的にアップグレードした成果であり、人物の一貫性や生成品質などの指標において大幅に向上しています。また、アクションモードとキャラクターモードの2つのモードをサポートしています。キャラクターモードでは、1枚のキャラクター画像と参照ビデオを入力することで、ビデオのキャラクターの動きと表情を画像のキャラクターに移すことができ、画像キャラクターに動的な表現力を与えます。一方、キャラクターリプレイモードでは、元のビデオの動き、表情、環境を保持しながら、ビデオ内のキャラクターを画像のキャラクターに入れ替えることができます。
通義万相チームは、会話、顔の表情、身体の動作を含む大規模な人物ビデオデータセットを構築し、通義万相の図生動画モデルに基づいて後続トレーニングを行いました。Wan2.2-Animateは、キャラクター情報、環境情報、動作などを統一された表現形式に規格化し、単一のモデルで2つの推論モードを同時に互換性を持たせることが可能になりました。身体の運動や顔の表情に対しては、それぞれ骨格信号と暗黙の特徴を使用し、アクションリダイレクトモジュールと組み合わせて、正確なアクションと表情の再現を実現します。交換モードでは、チームは独立したライティングフュージョンLoRAを開発し、完璧なライティングフュージョン効果を保証しています。
実際のテスト結果によると、Wan2.2-Animateは動画生成品質、主体の一貫性、知覚損失などの重要な指標においてStableAnimatorやLivePortraitなどのオープンソースモデルを上回り、現在最も性能の高い動作生成モデルとなっています。人間の主観的評価では、Wan2.2-AnimateはRunway Act-twoなどのクローズドソースモデルをも上回っています。
GitHub:https://github.com/Wan-Video/Wan2.2
魔搭コミュニティ:https://modelscope.cn/models/Wan-AI/Wan2.2-Animate-14B
HuggingFace:https://huggingface.co/Wan-AI/Wan2.2-Animate-14B