9月28日,Hugging Face發佈新模型榜單,阿里通義7款模型包攬全球前十開源模型。其中全模態大模型Qwen3-Omni登頂,實現業內首創,音視頻能力獲32項開源最佳性能SOTA。該模型可處理文本、圖片、語音和視頻,模擬人類"聽、說、寫"能力,表現強勁。
阿里巴巴發佈通義全模態預訓練模型Qwen3-Omni系列,支持音頻、視頻、文本等多模態信息處理,具備類人感知能力。該模型在36項音視頻基準測試中,22項達SOTA水平,32項爲開源模型最優,尤其在語音識別領域表現突出,標誌着AI技術重大突破,拓展了未來應用潛力。
【AI日報】阿里雲推出全球首個全模態AI模型Qwen3-Omni,實現文本、圖像、音頻與視頻的統一處理。該模型爲原生端到端設計,支持多模態數據整合,助力開發者洞悉技術趨勢,探索創新AI應用。每日熱點聚焦,助您緊跟AI領域前沿動態。
阿里雲發佈全球首個原生端到端全模態AI模型Qwen3-Omni並開源。該模型支持文本、圖像、音頻、視頻多模態輸入,實現實時流式輸出,響應迅速。通過文本預訓練與多模態混合訓練,Qwen3-Omni具備強大跨模態能力,在多個領域表現先進。
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、視覺和音頻多模態處理,通過llama.cpp實現高效推理。該版本在保證質量的前提下顯著減小文件大小,提升推理速度。
abnormalmapstudio
這是 Qwen3-Omni-30B-A3B-Thinking 模型的 MLX 格式轉換版本,使用 mlx-lm 0.28.1 進行轉換,支持在 Apple Silicon 設備上高效運行。
這是一個基於Qwen3-Omni-30B-A3B-Instruct模型轉換的MLX格式版本,使用mlx-lm 0.28.1工具轉換,專為Apple Silicon優化,支持高效的文本生成任務。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基於Qwen3-Omni-30B-A3B-Instruct微調得到的細粒度音頻分析模型,專門為任意音頻輸入生成詳細且低幻覺的描述,在複雜多樣的音頻場景中表現出色。
vito95311
這是Qwen3-Omni 31.7B參數模型的專業量化版本,採用先進的INT8+FP16混合精度量化技術,內存使用減少50%以上,支持智能GPU/CPU混合推理,讓大型多模態模型能夠在消費級硬件上高效運行。
NiagaBot是基於Qwen3-Omni AI的智能WhatsApp商業自動化機器人,支持多模態消息處理、群組管理、批量廣播和數據分析等功能