EchoMimicV2:输入图片、音频和手势视频即可生成“同款”数字人
近年来,随着计算机视觉和动画技术的飞速发展,生成生动的人类动画逐渐成为研究热点。最新的研究成果 EchoMimicV2,利用参考图像、音频片段和手势序列,创造出高质量的半身人类动画。简单的说, EchoMimicV2支持输入1张图+1段手势视频+1段音频,即可生成新的数字人,可以说输入的音频内容、带着输入的手势和头部动作的视频。EchoMimicV2的开发是为了应对现有动画生成技术中的一些实际挑战。传统的方法往往依赖多种控制条件,如音频、姿势或运动图谱,这使得动画生成变得复杂且笨重,