阿里的EMO框架通过关注音频提示和面部动作之间的联系,增强了头部视频生成的真实度、自然度和表现力。EMO支持不同语言的歌曲和口语音频生成,可以让角色化身具有丰富的表情和动态。此外,EMO还能实现不同角色之间的联动,为视频生成带来更多可能性。
相关AI新闻推荐

iOS18.6或为中国用户启用AI功能 国行苹果AI或由阿里百度技术支持
近日,知名科技记者马克·古尔曼透露消息,苹果AI有望在iOS18.6系统中首次在中国大陆启用部分功能,届时其背后将有阿里巴巴和百度提供技术支持。

阿里开源多模态模型Qwen2.5-Omni:显存大幅降低暴降 50%
在开源大模型的竞争中,阿里巴巴推出了其最新的多模态模型 Qwen2.5-Omni-3B。这款模型的显著特点是显存使用减少了50%,在同等处理能力下,更加适合普通消费者的 GPU 设备。这一创新标志着阿里在多模态人工智能领域的进一步突破。Qwen2.5-Omni 是一款端到端的多模态模型,能够同时处理文本、图像、音频和视频等多种信息类型。得益于其独特的 “Thinker-Talker” 架构,模型能够在实时互动中灵活运用多种输入,生成相应的文本和自然语音回应。这种设计使得用户在与系统的互动中,能够获得

Luma Ray2 Camera Concepts API 发布:AI 视频生成迈向电影级控制
Luma AI 宣布其旗舰视频生成模型 Ray2的 Camera Concepts API 正式上线,为开发者提供了前所未有的电影级镜头控制能力。结合此前推出的 Camera Motion Concepts 和 Camera Angle Concepts,这一 API 的发布标志着 AI 视频生成技术在创意控制和生产效率上的重大突破。Camera Concepts API:赋予开发者电影级创意控制Luma Ray2的 Camera Concepts API 允许开发者通过简单的 API 调用,精准控制 AI 生成视频中的镜头运动和角度。该 API 整合了 Ray2的 Camera Motion Concepts(包括平移、轨道、起重机镜头等20余种运动模式)和 Camera Angle

阿里Qwen3-235B-A22B模型正式登陆HuggingChat
由阿里巴巴云开发的 Qwen3-235B-A22B 模型正式在 HuggingChat 平台上线。这一开源大型语言模型以其强大的推理能力、灵活的模式切换和高效的性能表现,迅速成为业界关注的焦点。AIbase 通过整理 Twitter 上的最新信息,为您深入解析 Qwen3-235B-A22B 的技术亮点及其对开源 AI 生态的影响。Qwen3-235B-A22B:技术实力再突破Qwen3-235B-A22B 是 Qwen 团队最新推出的混合专家(MoE)模型,拥有2350亿总参数,其中220亿为激活参数,得益于 MoE 架构的优化,其推理速度和资源效率显著提升。Twitter 上的讨论指出,该模型

豆包视频生成功能升级 涵盖语义理解、动作连贯性等方面
豆包宣布其视频生成功能进行了重大升级,这一消息迅速吸引了众多用户的关注。此次升级涵盖了语义理解、影调画质、风格类型以及动作连贯性等多个方面,显著提升了视频生成的质量和用户体验。

阿里Qwen3深度解析:新一代开源大语言模型的革新与突破
Qwen3是什么?阿里Qwen3是通义千问系列的最新一代开源大语言模型(LLM),于2025年4月29日正式发布。作为全球首个支持“混合推理”的模型,Qwen3包含8款不同规模的模型,涵盖稠密模型(如0.6B、4B、32B)和混合专家模型(MoE,如30B-A3B、235B-A22B),采用Apache2.0协议开源,支持免费商用。其核心目标是提供高性能、低成本的AI解决方案,同时覆盖从边缘设备到企业级服务器的全场景需求。 Qwen3的主要功能混合推理模式:支持“思考模式”与“非思考模式”无缝切换。前者适用于复杂推理(如数学、代码

阿里发布开源Qwen3,成本大幅降低仅需DeepSeek-R1的三分之一
阿里巴巴正式推出新一代通义千问模型 Qwen3(千问3),并宣布其开源。阿里云表示,千问3是国内首个 “混合推理模型”,同时集成了 “快思考” 与 “慢思考” 的能力。相比于 DeepSeek-R1,千问3的参数量仅为其三分之一,而部署成本大幅降低,使用仅需四张 H20显卡即可实现满血版的部署。根据官方技术博客,千问3采用了混合专家(MoE)架构,拥有2350亿个参数,实际激活时仅需220亿参数。这款模型在预训练阶段使用了36TB 的数据,并通过多轮强化学习进行后训练。同时,千问3能够无缝结

Qwen3正式确认本周发布,阿里云AI新篇章即将开启
阿里云Qwen团队通过社交平台正式确认,Qwen3系列模型将于本周内发布,标志着其旗舰大语言模型(LLM)与多模态能力的又一次重大升级。据AIbase了解,Qwen3将推出包括0.6B、4B、8B、30B-A3B在内的多种模型规模,支持高达256K的上下文长度,涵盖推理与非推理任务。社交平台上的热烈讨论凸显了其全球影响力,相关细节已通过Hugging Face与Qwen官网逐步公开。核心功能:多规模模型与超长上下文Qwen3通过架构优化与多样化模型规模,为开发者与企业提供了灵活的AI解决方案。AIbase梳理了其主要亮点: 多

阿里 AI 工程师余亮荣获 “全国劳动模范” 称号
在 “庆祝中华全国总工会成立100周年暨全国劳动模范和先进工作者表彰大会” 上,阿里巴巴的员工余亮荣获 “全国劳动模范” 荣誉称号,这也是阿里 AI 工程师首次获得这一殊荣。余亮是一位专注于大数据和智慧城市领域的杰出工程师,他的贡献在行业内得到了广泛认可。余亮毕业于武汉大学,曾在浙江大学及海外顶尖高校和研究机构进行博士后研究,并担任研究员和科学家等职务。2016年,他加入阿里巴巴,开始负责城市大脑的交通算法研究,致力于通过大数据技术改善城市交通的效率

Adobe 重磅升级 Firefly AI 平台,打造图像、视频、音频全能创作引擎
Adobe 最近宣布对其 Firefly AI 平台进行重大升级,这一变化使其从一个独立的图像生成器转变为一个综合性数字内容创作系统。自两年前推出以来,Firefly 已被全球用户用来创建超过220亿个资产,这一最新版本旨在在这一成功基础上,提供更为多样化的创作工具。新版本的 Firefly 现在支持生成图像、视频、音频和矢量图形。针对图像生成,Adobe 推出了 Firefly Image Model4,分为标准版和超版。Adobe 表示,标准版可以满足90% 的创作需求,而超版则更适合处理复杂的写实场景。相比之前的版本,这两