音频驱动生成面部视频技术JoyVASA 支持小动物角色
近日,研究人员提出了一种名为 JoyVASA 的新技术,旨在提升音频驱动的图像动画效果。随着深度学习和扩散模型的不断发展,音频驱动的人像动画在视频质量和嘴形同步精度方面取得了显著进展。然而,现有模型的复杂性增加了训练和推理的效率问题,同时也限制了视频的时长和帧间连续性。JoyVASA 采用了两阶段的设计,第一阶段引入了一种解耦的面部表征框架,将动态面部表情与静态的三维面部表征分开。这种分离使得系统能够将任何静态的三维面部模型与动态动作序列相结合,从而生