阿里巴巴推出开放式世界模型Happy Oyster,支持多模态输入与音视频联合生成,专注于实时世界创建与交互,开启早期体验申请。
通义实验室发布多模态大模型Qwen3.5-Omni,实现理解力、交互感和任务执行力的跨越式进化,推动AI从“屏幕助手”迈向“理解物理世界的智能体”。该模型采用原生“全模态”架构,能无缝处理文本、图像、音频和视频输入,在音视频分析、推理、对话及翻译测试中表现卓越。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
字节跳动Seed团队发布新一代视频创作模型Seedance2.0,采用统一的多模态音视频联合生成架构,推动AI视频生成从“单点突破”迈向“全能协作”的工业级应用阶段。相比1.5版本,新模型在复杂交互与运动场景下的可用率显著提升,通过出色的物理还原能力,攻克了双人花滑、多人竞技等高难度动作生成难题。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52
TencentARC
ARC-Qwen-Video-7B是腾讯ARC实验室开发的用于理解现实世界短视频的多模态模型,基于Qwen2.5-VL-7B-Instruct构建,支持音视频同步分析和理解。