阿里通义Qwen团队发布新版Qwen3-Omni-Flash-2025-12-01,作为新一代全模态大模型,能高效处理文本、图像、音频和视频输入,实现实时流式响应,生成文本与自然语音输出。升级重点提升了音视频交互体验,增强了对音视频指令的理解和执行能力,优化了口语化场景中的表现。
阿里巴巴发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01,支持文本、图像、音频和视频的无缝输入,并能实时流式同步生成高质量文本与自然语音,语音自然度接近真人。该模型采用实时流式架构,支持119种文本语言交互。
9月28日,Hugging Face发布新模型榜单,阿里通义7款模型包揽全球前十开源模型。其中全模态大模型Qwen3-Omni登顶,实现业内首创,音视频能力获32项开源最佳性能SOTA。该模型可处理文本、图片、语音和视频,模拟人类"听、说、写"能力,表现强劲。
阿里巴巴发布通义全模态预训练模型Qwen3-Omni系列,支持音频、视频、文本等多模态信息处理,具备类人感知能力。该模型在36项音视频基准测试中,22项达SOTA水平,32项为开源模型最优,尤其在语音识别领域表现突出,标志着AI技术重大突破,拓展了未来应用潜力。
Alibaba
$8
输入tokens/百万
$240
输出tokens/百万
52
上下文长度
$3.9
$15.2
64
$15.8
$12.7
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
abnormalmapstudio
这是 Qwen3-Omni-30B-A3B-Thinking 模型的 MLX 格式转换版本,使用 mlx-lm 0.28.1 进行转换,支持在 Apple Silicon 设备上高效运行。
这是一个基于Qwen3-Omni-30B-A3B-Instruct模型转换的MLX格式版本,使用mlx-lm 0.28.1工具转换,专为Apple Silicon优化,支持高效的文本生成任务。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基于Qwen3-Omni-30B-A3B-Instruct微调得到的细粒度音频分析模型,专门为任意音频输入生成详细且低幻觉的描述,在复杂多样的音频场景中表现出色。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
NiagaBot是基于Qwen3-Omni AI的智能WhatsApp商业自动化机器人,支持多模态消息处理、群组管理、批量广播和数据分析等功能