ID-to-3Dは、一枚の気軽に撮影された写真から、人物同一性とテキストによる誘導を備えた、表情が分離された3Dヘッドモデルを生成する革新的な手法です。この手法は組み合わせに基づいており、特定のタスクに最適化された2D拡散モデルを最適化された事前知識として使用します。基本モデルを拡張し、軽量な表情認識と人物認識アーキテクチャを追加することで、幾何学とテクスチャ生成に用いられる2D事前知識を作成しました。これは、利用可能なトレーニングパラメータのわずか0.2%を微調整することで実現しました。強力な顔認識埋め込みとニューラル表現を組み合わせることで、顔の特徴だけでなく、アクセサリーや髪も正確に再構築し、ゲームや遠隔プレゼンテーションに適したレンダリング済みのアセットを提供できます。