動画制作の常識を覆す!アリババのVACEモデル、テキスト・画像・動画入力を統合処理
アリババグループの科学者チームが、幅広い動画生成と編集タスクを統一的に処理することを目的とした汎用AIモデル、VACEを発表しました。VACEの中核は、強化された拡散Transformerアーキテクチャであり、その革新的な点は「ビデオ条件ユニット(VCU)」という新しい入力形式です。VCUは、テキストプロンプト、参照画像や動画シーケンス、空間マスクなど、多様なモダリティの入力を統一的な表現に凝縮し、専用のメカニズムによって異なる入力間の調整を行い、競合を回避します。概念の分離により、きめ細やかな制御を実現します。