谷歌在全球推出“Search Live”功能,用户可通过手机摄像头和语音与AI实时交互,实现多模态搜索。该功能由Gemini 3.1 Flash Live模型驱动,提升了对话的自然度和响应速度。
PixVerse R1作为全球首个通用实时世界模型,通过Omni原生多模态模型等三大核心技术协同,实现了虚拟世界的实时交互体验。该模型在游戏、影视、直播等领域拓展了“人人可共创”的新可能,旨在“让虚拟世界活起来”。
阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
$6
$24
Baidu
128
$8
$240
52