DragNUWA: 静止画を動画に変換するマイクロソフトのモデル

マイクロソフトが開発した動画生成モデルDragNUWAは、静止画に動きを与えることができます。ドラッグ操作で動きの軌跡を指定するだけで、滑らかな動画を生成します。

カメラや複数のオブジェクトの移動、複雑な軌跡も同時に制御でき、現実世界の風景や芸術的な絵画風の動画を作成可能です。DragNUWAは、テキスト、画像、軌跡情報を導入することで、意味、空間、時間といった観点から動画の内容を精密に制御します。

研究者らは、カメラの移動と複雑な軌跡の2つの側面からモデルをテストし、複雑な動きを正確にモデル化し制御できる能力を実証しました。

モデルのトレーニングプロセス概要には、軌跡サンプラー、マルチスケール融合、適応型トレーニングが含まれています。DragNUWAは、WebVidとVideoHDのデータセットを使用してトレーニングされました。

このモデルは、動画制作やアニメーション制作など、幅広い分野への応用が期待されます。