215 项 SOTA 狂揽！阿里发布 Qwen3.5-Omni：全模态性能跨越式超越 Gemini

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Mar 31, 2026

216

中国大模型正在全模态交互领域实现从“追随”到“领跑”的华丽转身。

3月30日，阿里正式发布千问新一代全模态大模型 Qwen3.5-Omni。该模型凭借混合注意力 MoE 架构，实现了图片、视频、语音及文字的无缝全模态输入与输出，标志着国产大模型在视听交互领域达到了全球顶尖水平。

全能战力:215项任务夺冠，硬核超越 Gemini

在衡量大模型综合实力的硬指标上，Qwen3.5-Omni 展现了统治级的表现:

SOTA 霸榜: 在音视频理解、识别与交互等共计215项测试任务中，该模型均取得 SOTA（性能最佳）表现。

对标优胜: 在 DailyOmni、QualcommInteractive 等聚焦视听交互的测试中，其得分大幅领先 Google 的 Gemini-3.1Pro。

抗干扰神技: 在嘈杂环境下的 WenetSpeech 测试中，其识别准确率极高，错误率远低于对手。

交互革命:113种语言识别与“动动嘴”编程

Qwen3.5-Omni 不仅更聪明，而且更懂“方言”和“代码”:

语言专家: 支持113种语言及方言的识别，甚至是毛利语、海南方言等小众语言也能精准捕捉。

Vibe Coding 进化: 开启了音视频编程新时代。用户只需打开摄像头，对着草图口述需求，模型即可直接生成带有复杂 UI 的产品原型界面，真正实现“所说即所得”。

生产力爆发:10小时音频长程理解

针对专业领域，新模型提供了极强的结构化处理能力:

视频深度拆解: 能对画面主体、人物关系及情绪起伏进行极细颗粒度的拆解。

自动切片: 支持超过10小时的音频输入，并能自动完成视频章节切片与时间戳标注，极大提升了内容创作效率。

普惠生态:价格仅为 Gemini 的十分之一

阿里云百炼 平台已同步上线 Plus、Flash、Light 三种 API，旨在为企业提供最具性价比的选择:

成本极低: 每百万 Tokens 输入成本低于0.8元，价格不到 Gemini-3.1Pro 的十分之一。

市场领先: 目前千问已服务超100万家客户，稳居中国企业级大模型调用市场第一。

结语:从“理解文字”到“感知世界”

Qwen3.5-Omni 的发布，不仅是阿里技术实力的展现，更是国产大模型迈向“全能交互”的重要里程碑。当模型能够像人类一样听懂方言、看懂草图、理解情绪，AI 将真正从屏幕里的对话框走出来，成为各行各业触手可及的超级生产力工具。

大模型千问全模态 Qwen3.5-Omni

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Kimi K3 攻防考卷翻车：漏洞利用只到美国前沿模型四成，蒸馏疑云被安全机构摆上台

英美AI安全机构联合评测Kimi K3：在漏洞利用和模拟网络攻击能力上逊于美国前沿模型，但优于智谱GLM-5.2，成为开放权重模型中的新标杆。

2026年7月24号 18:05

670

黑森林实验室FLUX3 多模态模型登场：单次生成 20 秒音视频，胜率碾压Grok与Seedance

Black Forest Labs发布FLUX3多模态基础模型，采用统一架构联合学习图像、视频和音频。基于Self-Flow自监督流匹配框架，在FLUX系列基础上扩展多模态生成与理解。支持文生视频、图生视频，单次生成最长20秒视频并原生输出同步音频，性能全面超越前代。

2026年7月24号 17:43

240

Runway推出Media Router：自动切换AI模型帮你省Token，创意验证到成片一条龙搞定

Runway推出Media Router，可依据质量、速度与成本优先级，为图像、视频、音频生成自动切换AI模型。系统将调用场景分为三类，如高速生成模式用于快速创意验证，实现智能匹配，省去开发者逐一比较和手动切换的负担，兼顾效率与成本。

2026年7月24号 16:08

230

AI日报：黑森林实验室放出Flux3；Claude Opus现已支持语音模式；快手入局AI互动内容赛道

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、黑森林实验室放出Flux3：首个原生生成音频的多模态基础模型，20秒音画同步一次成型黑森林实验室发布的Flux3多模态基础模型，首次实现了原生音频生成，并在音视频同步、图像生成和动作控制方面表现出色，展现了其在人工智能领域的领先地位。8、阿里开源0.8B文档解析模型OvisOCR2，端到端方案登顶OmniDocBench阿里开源的OvisOCR2模型在文档解析领域取得重大突破，以0.8B参数规模实现端到端解析，超越传统流水线方法，为RAG检索、智能问答和企业知识库提供高效支持。

2026年7月24号 16:03

160

黑森林实验室放出 Flux3：首个原生生成音频的多模态基础模型，20 秒音画同步一次成型

黑森林实验室发布多模态模型Flux3，基于Self-Flow架构并集成图像、视频、音频、动作编解码器，实现物理与数字世界的统一理解与生成。其亮点是首次支持原生音频生成，一次输出20秒音视频同步片段，能力涵盖文本、图像、视频转视频等。

2026年7月24号 15:16

310

腾讯混元"合二为一"：多模态与大语言模型部门合并，姚顺雨统管冲全模态上限

据7月24日报道，腾讯于7月23日宣布将混元多模态模型部门与大语言模型部门合并，组建基础模型部，由首席AI科学家姚顺雨统率。此举旨在提升研发与协同效率，全力冲刺全模态模型的智能上限。整合早有伏笔，去年12月姚顺雨已接管大语言模型团队，如今双边归一，意味着腾讯集中资源推动多模态与语言深度融合，加速构建新一代统一基础模型，向全模态智能更高峰迈进。

2026年7月24号 14:48

440