音頻驅動生成面部視頻技術JoyVASA 支持小動物角色
近日,研究人員提出了一種名爲 JoyVASA 的新技術,旨在提升音頻驅動的圖像動畫效果。隨着深度學習和擴散模型的不斷髮展,音頻驅動的人像動畫在視頻質量和嘴形同步精度方面取得了顯著進展。然而,現有模型的複雜性增加了訓練和推理的效率問題,同時也限制了視頻的時長和幀間連續性。JoyVASA 採用了兩階段的設計,第一階段引入了一種解耦的面部表徵框架,將動態面部表情與靜態的三維面部表徵分開。這種分離使得系統能夠將任何靜態的三維面部模型與動態動作序列相結合,從而生