MIMOは、複雑な動作で物とインタラクトする人物を模倣できる汎用的な動画合成モデルです。参照画像、ポーズシーケンス、シーン動画や画像といったシンプルな入力から、キャラクター、動作、シーンといった制御可能な属性を持つキャラクター動画を合成できます。MIMOは、2D動画をコンパクトな空間コードにエンコードし、主要人物、背景シーン、前景の遮蔽物の3つの空間構成要素に分解することで、これを実現します。この手法により、柔軟な制御、空間運動表現、3D認識合成が可能になり、インタラクティブな現実世界のシーンに適しています。