通義万相はVACEをオープンソースにしました。これはビデオ編集分野における技術革新の重要な一歩です。今回オープンソースとなったWan2.1-VACE-1.3Bは480P解像度に対応し、Wan2.1-VACE-14Bは480Pと720Pの両方の解像度に対応しています。VACEの登場により、ユーザーは文からビデオを作成したり、画像リファレンスの生成やローカル編集、ビデオの拡張など、さまざまなタスクを異なるモデルやツールを切り替えることなく行うことができます。これにより、創造力と効率が大幅に向上します。
VACEの強みはその制御可能な再描画能力にあります。人体のポーズ、動きの光流、構造の保持、空間的な動き、着色などの制御に基づいて生成を行うことが可能です。また、主体や背景のリファレンスに基づいたビデオ生成もサポートしています。このため、ビデオ生成後にキャラクターのポーズや動き、シーンのレイアウトなどを調整することが容易になります。VACEのバックエンドにはマルチモーダル入力メカニズムがあり、テキスト、画像、ビデオ、マスク、制御信号を統合した一貫した入力システムが構築されています。画像入力では物体のリファレンス画像やビデオフレームをサポートし、ビデオ入力では消去や部分的な拡張などの操作を通じて再生成できます。部分的な領域では0/1のバイナリシグナルで編集範囲を指定でき、制御シグナルではディープマップ、光流、レイアウト、グレースケール、スケッチ、ポーズなどをサポートしています。
VACEはビデオ内の特定領域に対してコンテンツの置き換え、追加、削除などの操作だけでなく、任意のフレームまたは先頭・末尾のフレームに基づいてビデオ全体の時間軸を補完する機能も備えています。空間的には画面の端や背景領域を拡張して生成することが可能で、例えば背景の変更においても主体を変更せずにプロンプトに基づいて環境を切り替えることができます。強力なマルチモーダル入力モジュールとWan2.1の生成能力のおかげで、従来の専門家モデルが実現できる機能、例えば画像リファレンス能力、ビデオリペイント能力、部分編集能力なども簡単に扱えます。さらに、VACEは複数の単独タスク能力を自由に組み合わせることが可能であり、従来の専門家モデル間の連携の課題を克服しています。統合モデルとして、文からビデオ生成、ポーズコントロール、背景変更、部分編集といった基本能力を自然に統合しており、特定の機能のために新しいモデルを個別にトレーニングする必要はありません。
VACEの柔軟な組み合わせメカニズムは、創作プロセスを大幅に簡略化し、AIによるビデオ生成の創造的境界を広げました。例えば、画像リファレンスと主体再形成機能を組み合わせることで、ビデオ内の物体を置き換えることができます。運動制御と先頭フレームリファレンス機能を組み合わせることで、静止画像のポーズ制御が可能です。画像リファレンス、先頭フレームリファレンス、背景拡張、時間延長機能を組み合わせることで、縦型画像を横型ビデオに変換し、リファレンス画像の要素を追加することもできます。文からビデオ生成、画像からビデオ生成、ビデオからビデオ生成、部分ビデオ生成という4つの一般的なタスクについての入力形式を分析・総括することで、VACEはフレキシブルで統一された入力パターン「ビデオ条件ユニット(VCU)」を提案しました。VCUは多様なモードの様々なコンテキスト入力をテキスト、フレームシーケンス、マスクシーケンスの3つの形態にまとめ、4種類のビデオ生成・編集タスクの入力形式を統一しました。VCUのフレームシーケンスとマスクシーケンスは数学的に重ね合わせることが可能であり、複数タスクの自由な組み合わせを促進しています。
技術実装において、VACEが解決すべき大きな課題の一つは、マルチモーダル入力を拡散Transformerが処理可能なトークンシーケンスに統一する方法でした。VACEはVCU入力内のフレームシーケンスを概念的に分解し、そのまま保存すべきRGBピクセル(不変フレームシーケンス)とプロンプトに基づいて再生成されるべき内容(可変フレームシーケンス)に分けました。その後、この3つの入力(可変フレーム、不変フレーム、マスク)を隠れ空間でエンコードします。可変フレームと不変フレームはVAEによってDiTモデルのノイズ次元と同じ空間にエンコードされ、チャンネル数は16となります。一方、マスクシーケンスは変形とサンプリング操作により、時空次元が一致し、チャンネル数が64の隠れ空間特徴にマッピングされます。最後に、フレームシーケンスとマスクシーケンスの隠れ空間特徴を結合し、訓練可能なパラメータを通じてDiTのトークンシーケンスにマッピングします。
トレーニング戦略に関しては、グローバル微調整とコンテキストアダプター微調整の2つの方法を比較しました。グローバル微調整は全てのDiTパラメータをトレーニングすることで、より速い推論速度を達成できます。一方、コンテキストアダプター微調整は基底モデルのパラメータを固定し、選択的にいくつかの元のトランスフォーマーレイヤーをコピーして追加のアダプターとしてトレーニングします。実験結果では、検証損失において2つに大きな差は見られませんが、コンテキストアダプター微調整は収束速度が速く、基礎能力の喪失リスクを回避できます。そのため、今回のオープンソースバージョンはコンテキストアダプター微調整法を使用してトレーニングされました。今回発表されたVACEシリーズモデルの定量評価結果から、1.3Bプレビュー版と比較して、多くの重要な指標で顕著な改善が見られます。
- GitHub: https://github.com/Wan-Video/Wan2.1
- 魔搭: https://modelscope.cn/organization/Wan-AI
- Hugging Face: https://huggingface.co/Wan-AI
- 国内サイト: https://tongyi.aliyun.com/wanxiang/
- 国際サイト: https://wan.video