音声駆動型顔面ビデオ生成技術JoyVASA、小動物キャラクターに対応
近頃、研究者らが音声駆動型画像アニメーションの効果を高めることを目的としたJoyVASAという新技術を発表しました。深層学習と拡散モデルの進歩に伴い、音声駆動型の人物アニメーションは、ビデオ品質と口パク精度において著しい進展を見せています。しかしながら、既存モデルの複雑さにより、訓練と推論の効率に問題が生じ、ビデオの長さとフレーム間の連続性も制限されています。JoyVASAは二段階設計を採用しており、第一段階では動的な顔の表情と