浙江大学与阿里巴巴联合推出全新音频驱动模型OmniAvatar,标志着数字人技术迈向新高度。该模型以音频为驱动,可生成自然流畅的全身数字人视频,尤其在歌唱场景下表现突出,口型与音频唇形同步精准,效果逼真。

OmniAvatar支持通过文本提示精细控制生成细节,用户可自定义人物动作幅度、背景环境及情绪表达,展现出极高的灵活性。此外,该模型能够生成虚拟人物与物体互动的视频,为电商广告、营销广告等商业场景提供了广阔应用空间。例如,品牌可利用OmniAvatar制作动态广告,增强消费者互动体验。

作为开源项目,OmniAvatar已在GitHub上发布,吸引了全球开发者的关注。其在面部表情、半身及全身动画生成上的优异表现,超越了现有同类模型。据悉,该模型还支持多场景应用,包括播客节目、人际互动及动态表演等,展现了其在内容创作领域的巨大潜力。

业界专家表示,OmniAvatar的发布不仅提升了音频驱动数字人技术的真实性与可控性,也推动了AI在营销、教育及娱乐等领域的创新应用。未来,浙江大学与阿里巴巴将继续深化合作,探索多模态AI的更多可能性。