AI对口型项目EchoMimic：音频+角色照片生成生动配嘴型视频

AIbase

发布于AI新闻资讯 · 1 分钟阅读 · Jul 11, 2024

3.1k

在AI视频对口型领域，蚂蚁集团以及相关研究团队出品了一款类似之前阿里的Emo的新技术，提供音频和角色照片就能根据音频内容生成生动对口型视频。

产品入口：https://top.aibase.com/tool/echomimic

EchoMimic技术以其创新性的方法，解决了传统音频驱动或面部关键点驱动方法的局限性，实现了更加逼真和动态的人像生成。

传统方法在处理音频信号较弱或对面部关键点信息过度控制时，往往会产生不稳定或不自然的结果。EchoMimic通过同时利用音频和面部特征，采用新颖的训练策略，克服了这些挑战。这种方法不仅能够独立使用音频或面部特征生成人像视频，还能通过两者的结合，创造出更加细腻和真实的动画效果。

EchoMimic的技术核心在于其能够精确捕捉音频信号和面部特征之间的关联，并以此为基础生成动画。在训练过程中，EchoMimic采用了先进的数据融合技术，确保了音频和面部特征的有效整合，从而提高了动画的稳定性和自然度。可以看看下方EchoMimic官方展示的部分示例:

中英文对口型效果:

唱歌效果:

另外，EchoMimic 不仅能够单独生成音频和面部特征，还可以通过音频和选定的面部特征的组合来生成人像视频，支持指定表情参考视频（landmarks）来控制角色面部表情，音频 + 选定脸部区域控制表情示例如下:

经过与多个公共数据集和自收集数据集中的替代算法进行的全面比较，EchoMimic在定量和定性评估方面均展现出卓越的性能。这一点在EchoMimic项目页面上的可视化效果中得到了充分体现。

随着技术的不断进步和应用的深入，EchoMimic有望在未来的人像动画领域发挥更大的作用。

划重点:
🎙️ **音频与面部特征融合**:EchoMimic通过结合音频信号和面部关键点信息，创造出更逼真的人像动画。
🔧 **新颖的训练策略**:该技术采用创新的训练方法，提高了动画的稳定性和自然度。
🏆 **卓越性能表现**:在与多种数据集中的替代算法比较中，EchoMimic在定量和定性评估方面均表现优异。

科大讯飞 11 月 6 日重磅发布：星火大模型全面升级

科大讯飞将于11月6日在合肥举办全球1024开发者节线下主论坛，重点展示星火大模型的最新升级成果，突出其底座能力提升和多模态交互进展。线上议程已于10月24日启动，吸引广泛开发者关注，体现公司在AI基础技术领域的持续突破。

SEO已死?8.5亿美元"生成式引擎优化"市场崛起，品牌巨头抢滩AI营销

美国假日购物习惯正经历根本转变。Adobe报告预测，2025年零售商来自AI聊天机器人和搜索引擎的流量可能激增520%，消费者正转向大型语言模型而非传统搜索寻找商品。OpenAI已与沃尔玛达成合作，允许用户直接在ChatGPT内完成购物，标志着AI购物时代加速到来。

Apache Doris4.0正式发布:引领 AI 与搜索技术的新潮流

Apache Doris 4.0 正式发布，聚焦AI驱动、搜索增强和离线提效三大方向。新增向量索引和AI函数等特性，提升数据处理效率与用户体验。通过深度集成向量索引技术，高效处理文本嵌入等高维向量数据，支持用户在同一平台使用SQL进行结构化分析。

医疗 AI 新突破！百川推出 “医生版 ChatGPT”，让诊疗更精准

百川科技发布医疗大模型Baichuan-M2Plus，号称“医生版ChatGPT”，旨在提升医疗智能辅助能力。其采用六源循证推理范式，显著提高知识准确性和可靠性，大幅降低医疗“幻觉”率，性能优于美国产品OpenEvidence。这是百川在医疗AI领域的重要进展。