本製品は拡散モデルのフレームワークに基づき、一枚の画像から与えられた目標となる3Dモーションシーケンスの人物アニメーションを生成します。主な構成要素には、人体や衣服の非可視部分に関する事前知識の学習と、適切な衣服とテクスチャを用いた新しい体のポーズのレンダリングが含まれます。テクスチャマップ空間でモデルを訓練することにより、ポーズや視点に対して不変性を高め、効率性を向上させています。さらに、3D人体ポーズによって制御される拡散ベースのレンダリングパイプラインを開発し、リアルな人物レンダリング画像を生成します。本手法は、3Dポーズ目標に合致した画像シーケンスを生成し、視覚的には入力画像と類似しています。同時に、3D制御により、人物をレンダリングするための様々な合成カメラ軌跡の生成が可能です。実験により、本手法は従来の方法と比較して、継続的な動きや複雑なポーズの画像シーケンスを生成できることが実証されました。