阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
Alibaba
$3.9
输入tokens/百万
$15.2
输出tokens/百万
64
上下文长度