バイトダンス、超リアルな口パク同期を実現するリップシンクモデルLatentSyncをオープンソース化
先日、バイトダンスは、オーディオ条件付き潜在拡散モデルを利用してより正確なリップシンクを実現することを目的とした、LatentSyncという新しいリップシンクフレームワークを発表しました。このフレームワークはStable Diffusionをベースに、時間的一貫性を最適化しています。従来のピクセル空間拡散や2段階生成の方法とは異なり、LatentSyncはエンドツーエンド方式を採用し、中間モーション表現を必要とせず、複雑なオーディオとビジュアル間の関係を直接モデル化できます。LatentSyncの