阿里通義Qwen團隊發佈新版Qwen3-Omni-Flash-2025-12-01,作爲新一代全模態大模型,能高效處理文本、圖像、音頻和視頻輸入,實現實時流式響應,生成文本與自然語音輸出。升級重點提升了音視頻交互體驗,增強了對音視頻指令的理解和執行能力,優化了口語化場景中的表現。
阿里巴巴發佈新一代全模態大模型Qwen3-Omni-Flash-2025-12-01,支持文本、圖像、音頻和視頻的無縫輸入,並能實時流式同步生成高質量文本與自然語音,語音自然度接近真人。該模型採用實時流式架構,支持119種文本語言交互。
9月28日,Hugging Face發佈新模型榜單,阿里通義7款模型包攬全球前十開源模型。其中全模態大模型Qwen3-Omni登頂,實現業內首創,音視頻能力獲32項開源最佳性能SOTA。該模型可處理文本、圖片、語音和視頻,模擬人類"聽、說、寫"能力,表現強勁。
阿里巴巴發佈通義全模態預訓練模型Qwen3-Omni系列,支持音頻、視頻、文本等多模態信息處理,具備類人感知能力。該模型在36項音視頻基準測試中,22項達SOTA水平,32項爲開源模型最優,尤其在語音識別領域表現突出,標誌着AI技術重大突破,拓展了未來應用潛力。
Alibaba
$8
輸入tokens/百萬
$240
輸出tokens/百萬
52
上下文長度
$15.8
$12.7
64
$3.9
$15.2
Akicou
Qwen3-Omni-30B-A3B-Thinking模型的Q4_K_S量化GGUF版本,支持文本、視覺和音頻多模態處理,通過llama.cpp實現高效推理。該版本在保證質量的前提下顯著減小文件大小,提升推理速度。
abnormalmapstudio
這是 Qwen3-Omni-30B-A3B-Thinking 模型的 MLX 格式轉換版本,使用 mlx-lm 0.28.1 進行轉換,支持在 Apple Silicon 設備上高效運行。
這是一個基於Qwen3-Omni-30B-A3B-Instruct模型轉換的MLX格式版本,使用mlx-lm 0.28.1工具轉換,專為Apple Silicon優化,支持高效的文本生成任務。
cpatonn
Qwen3-Omni-30B-A3B-Captioner是基於Qwen3-Omni-30B-A3B-Instruct微調得到的細粒度音頻分析模型,專門為任意音頻輸入生成詳細且低幻覺的描述,在複雜多樣的音頻場景中表現出色。
vito95311
這是Qwen3-Omni 31.7B參數模型的專業量化版本,採用先進的INT8+FP16混合精度量化技術,內存使用減少50%以上,支持智能GPU/CPU混合推理,讓大型多模態模型能夠在消費級硬件上高效運行。
NiagaBot是基於Qwen3-Omni AI的智能WhatsApp商業自動化機器人,支持多模態消息處理、群組管理、批量廣播和數據分析等功能