audio2photorealは、音声から写真レベルでリアルなアバターを生成するオープンソースプロジェクトです。PyTorchによる実装を含み、音声から会話中の人の姿を合成できます。本プロジェクトでは、トレーニングコード、テストコード、事前学習済みのモーションモデル、そしてデータセットへのアクセスを提供します。モデルには、顔拡散モデル、人体拡散モデル、人体VQ VAEモデル、人体誘導変換器モデルが含まれます。研究者や開発者は、独自のモデルをトレーニングし、音声に基づいて高品質でリアルなアバターを合成することができます。