近日,開源項目BrowserUse發佈自研大語言模型BU-30B-A3B-Preview,被譽爲網頁代理領域新標杆。該模型採用混合專家(MoE)架構,總參數達300億,但推理時僅激活部分參數,兼顧強大性能與輕量化運行,顯著降低了AI瀏覽器操作的成本與門檻。
小米新任大模型負責人羅福莉在2025小米生態大會上,正式發佈全新MoE大模型MiMo-V2-Flash。該模型採用Hybrid SWA架構,設計簡潔優雅,在長上下文推理方面表現突出,標誌着小米向人工通用智能(AGI)目標邁出重要一步。
騰訊自研大模型混元2.0(Tencent HY2.0)正式發佈,與此同時,DeepSeek V3.2也逐步接入騰訊生態。目前,這兩大模型已在元寶、ima等騰訊AI原生應用中率先上線,騰訊雲也同步開放了相關模型的API及平臺服務。 全新發布的Tencent HY2.0採用混合專家(MoE)架構,總參數量高達4
阿里巴巴通義千問團隊在NeurIPS 2025獲最佳論文獎,論文《Attention Gating Makes Better Foundation Models》提出“滑動門”機制,在標準注意力後添加可學習門控,動態篩選關鍵頭和token參與下游計算。實驗證明,1.7B稠密模型性能媲美15B MoE模型。本屆大會投稿2萬篇,錄取率僅25%,競爭激烈,該論文是四篇獲獎作品中唯一中國成果。
Qwen2.5-Max是一個大規模的Mixture-of-Expert (MoE)模型,致力於提升模型智能。
Doubao-1.5-pro 是一個高性能的稀疏 MoE 大語言模型,專注於推理性能與模型能力的極致平衡。
萬億參數MoE文本大模型
大規模MoE語言模型,性能媲美七十億參數模型
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
$2
$20
Baidu
128
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
$0.8
PrimeIntellect
INTELLECT-3是一個擁有1060億參數的混合專家(MoE)模型,通過大規模強化學習訓練而成。在數學、編碼和推理基準測試中展現出卓越性能,模型、訓練框架和環境均以寬鬆許可協議開源。
Gjm1234
Wan2.2是基礎視頻模型的重大升級版本,專注於將有效MoE架構、高效訓練策略和多模態融合等創新技術融入視頻擴散模型,為視頻生成領域帶來更強大、更高效的解決方案。
bartowski
這是一個基於REAP方法對MiniMax-M2中40%專家進行均勻剪枝得到的139B參數大語言模型,採用GLM架構和專家混合(MoE)技術,通過llama.cpp進行多種量化處理,適用於文本生成任務。
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
unsloth
Qwen3-VL是迄今為止Qwen系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面都進行了全面升級。該模型採用混合專家(MoE)架構,提供卓越的多模態處理能力。
Qwen3-VL是通義大模型系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力以及出色的智能體交互能力。該模型採用混合專家(MoE)架構,是增強推理的思維版。
bullerwins
MiniMax-M2是一款專為最大化編碼和智能體工作流程而構建的小型混合專家(MoE)模型。它擁有2300億總參數,僅激活100億參數,在編碼和智能體任務中表現卓越,同時保持強大的通用智能,具有緊湊、快速且經濟高效的特點。
MiniMax-M2是一款專為最大化編碼和智能體工作流程而構建的'迷你'模型。它是一個緊湊、快速且經濟高效的混合專家(MoE)模型,在編碼和智能體任務中表現卓越,同時還具備強大的通用智能。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通義千問團隊推出的新一代思考型大語言模型,採用創新的混合注意力機制和高稀疏MoE架構,在保持高效推理的同時具備強大的複雜推理能力,原生支持262K上下文長度。
inclusionAI
Ming-flash-omni 預覽版是基於 Ling-Flash-2.0 稀疏專家混合(MoE)架構構建的多模態大模型,總參數達100B,每個token僅激活6B參數。該模型在Ming-Omni基礎上進行了全面升級,在多模態理解和生成方面有顯著提升,特別是在語音識別、圖像生成和分割編輯方面表現突出。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通義千問團隊開發的高效稀疏混合專家模型,總參數量80B,激活參數量僅3B。該模型採用創新的混合注意力機制和極低激活率的MoE架構,在保持強大性能的同時大幅提升推理效率,原生支持262K上下文長度並可擴展至1M令牌。
Infinigence
梅格雷斯2-3x7B-A3B是一款設備原生大語言模型,採用混合專家(MoE)架構,結合了MoE的準確性和密集模型的緊湊性優勢。該模型在8T標記數據上訓練,具備32K上下文長度,未來計劃提升推理和代理能力。
LLaDA-MoE是基於擴散原理構建的新型混合專家語言模型,是首個開源的MoE擴散大語言模型,在約20萬億個標記上從頭預訓練,總參數70億,推理時僅激活14億參數,在代碼生成和數學推理等任務中表現卓越。
Ling 2.0是基於MoE架構的大語言模型家族,首個版本Ling-mini-2.0參數規模緊湊但功能強大,在複雜推理和指令遵循方面表現出色,採用1/32激活率的MoE架構,實現卓越性能與高效運行的完美結合。
Kwai-Klear
Klear是由快手Kwai-Klear團隊開發的稀疏混合專家(MoE)大語言模型,具備高性能和推理效率的特點。總參數460億,激活參數僅25億,在多個能力基準測試中表現出色,為實際應用提供了高效且強大的解決方案。
這是deepcogito的cogito-v2-preview-llama-109B-MoE模型的量化版本,使用llama.cpp進行量化處理,提供多種量化類型以適應不同硬件條件。該模型是一個109B參數的混合專家(MoE)大語言模型,經過優化後可在消費級硬件上運行。
Qwen3-30B-A3B-Instruct-2507是Qwen3-30B-A3B非思考模式的更新版本,在通用能力、長尾知識覆蓋、用戶偏好對齊和長上下文理解等方面均有顯著提升。這是一個305億參數的大型語言模型,採用MoE架構,激活參數為33億。
gabriellarson
ERNIE-4.5-300B-A47B 是一款基於 MoE 架構的多模態預訓練模型,具備強大的文本理解和生成能力,支持視覺-語言聯合推理。
float-trip
Qwen3-14B-Base是通義系列最新一代的大語言模型,提供了一系列全面的密集模型和專家混合(MoE)模型,在訓練數據、模型架構和優化技術等方面取得了顯著進展。
IntervitensInc
盤古 Pro MoE 是基於新型分組混合專家模型(MoGE)構建的語言模型,實現了設備間天然的負載均衡,具有強大的自然語言處理能力。
MOEX股票與新聞MCP服務器是一個基於Model Context Protocol的接口服務,提供莫斯科交易所股票行情、金融新聞查詢及分析功能,支持與大型語言模型集成。