阿里千问APP接入万相2.5模型,视频创作能力升级,动作精度和肢体协调性提升,成为首个支持音视频同步输出的移动端AI助手。该模型具备音画同步能力,支持多模态输入输出,在LMArena评测中图生视频能力全球第三。
OpenAI将实时语音与视觉功能整合进ChatGPT主界面,用户按住麦克风图标即可边说话边查看地图、图表等视觉内容,文字转录同步显示。更新亮点包括多模态同屏交互(语音提问时实时展示相关图像并自动滚动文字),以及连续对话无中断(语音回复同时更新画面,延迟低于300毫秒),无需跳转页面。
魔珐科技发布全球首个3D数字人开放平台“魔珐星云”,让AI从文字对话升级为实时生成带表情、手势和身体动作的3D数字人。其核心3D多模态引擎可输入文本后毫秒级输出同步语音与动作,并适配手机、车载等多种终端,实现AI从“说话”到“表演”的进化。
Wan2.5-Preview正式发布,这款AI模型通过革命性架构重塑视觉生成。其核心突破在于多模态处理、视频生成和图像编辑,采用统一框架实现文本、图像、视频和音频的灵活输入输出。通过联合训练,模型强化模态对齐,提升生成能力。
Wan 2.5支持原生多模态AV生成,可10秒生成1080p视频,音画同步。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$6
$24
$2
$20
Baidu
128
$8
$240
52
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。
Alissonerdx
HuMo是一个统一的、以人为中心的视频生成框架,能够根据文本、图像和音频等多模态输入,生成高质量、细粒度且可控的人类视频。它支持强大的文本提示跟随、一致的主体保留以及同步的音频驱动运动。
VeryAladeen
HuMo是一个以人为中心的视频生成框架,能够利用文本、图像和音频等多模态输入生成高质量、细粒度且可控的人类视频,支持文本提示跟随、主体保留和音频驱动运动同步。
Qwen
Qwen2.5-Omni是一款端到端多模态模型,能够感知文本、图像、音频和视频等多种模态信息,并以流式方式同步生成文本和自然语音响应。