9月28日,Hugging Face发布新模型榜单,阿里通义7款模型包揽全球前十开源模型。其中全模态大模型Qwen3-Omni登顶,实现业内首创,音视频能力获32项开源最佳性能SOTA。该模型可处理文本、图片、语音和视频,模拟人类"听、说、写"能力,表现强劲。
阿里巴巴发布通义全模态预训练模型Qwen3-Omni系列,支持音频、视频、文本等多模态信息处理,具备类人感知能力。该模型在36项音视频基准测试中,22项达SOTA水平,32项为开源模型最优,尤其在语音识别领域表现突出,标志着AI技术重大突破,拓展了未来应用潜力。
【AI日报】阿里云推出全球首个全模态AI模型Qwen3-Omni,实现文本、图像、音频与视频的统一处理。该模型为原生端到端设计,支持多模态数据整合,助力开发者洞悉技术趋势,探索创新AI应用。每日热点聚焦,助您紧跟AI领域前沿动态。
阿里云发布全球首个原生端到端全模态AI模型Qwen3-Omni并开源。该模型支持文本、图像、音频、视频多模态输入,实现实时流式输出,响应迅速。通过文本预训练与多模态混合训练,Qwen3-Omni具备强大跨模态能力,在多个领域表现先进。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、视觉和音频多模态处理,通过llama.cpp实现高效推理。该版本在保证质量的前提下显著减小文件大小,提升推理速度。
abnormalmapstudio
这是 Qwen3-Omni-30B-A3B-Thinking 模型的 MLX 格式转换版本,使用 mlx-lm 0.28.1 进行转换,支持在 Apple Silicon 设备上高效运行。
这是一个基于Qwen3-Omni-30B-A3B-Instruct模型转换的MLX格式版本,使用mlx-lm 0.28.1工具转换,专为Apple Silicon优化,支持高效的文本生成任务。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基于Qwen3-Omni-30B-A3B-Instruct微调得到的细粒度音频分析模型,专门为任意音频输入生成详细且低幻觉的描述,在复杂多样的音频场景中表现出色。
vito95311
这是Qwen3-Omni 31.7B参数模型的专业量化版本,采用先进的INT8+FP16混合精度量化技术,内存使用减少50%以上,支持智能GPU/CPU混合推理,让大型多模态模型能够在消费级硬件上高效运行。
NiagaBot是基于Qwen3-Omni AI的智能WhatsApp商业自动化机器人,支持多模态消息处理、群组管理、批量广播和数据分析等功能