埃隆・馬斯克在巴倫投資大會上首次量化預測AGI時間表:明年Q1發佈的Grok 5有約10%概率實現通用人工智能。技術亮點包括:6萬億參數MoE架構(稀疏度70%)、多模態統一編碼(文本/圖像/音頻/實時視頻流)、幀級延遲<120ms。訓練數據來自X平臺每日5億帖文與2億小時視頻流,支持實時回灌訓練。
螞蟻集團開源百靈大模型Ring-flash-linear-2.0-128K,專攻超長文本編程。採用混合線性注意力與稀疏MoE架構,僅激活6.1B參數即可媲美40B密集模型,在代碼生成和智能代理領域達到最優表現,高效解決長上下文處理痛點。
螞蟻百靈開源高效推理模型Ring-mini-sparse-2.0-exp,基於Ling2.0架構優化長序列解碼。創新結合高稀疏比MoE結構與稀疏注意力機制,顯著提升複雜長序列推理性能。通過架構與推理框架深度協同優化,有效應對長序列處理挑戰。
Liquid AI推出LFM2-8B-A1B模型,採用稀疏激活MoE架構,總參數量8.3B但每token僅激活1.5B參數。該設計在保持高表示能力的同時顯著降低計算負載,突破“小規模MoE低效”認知,專爲資源受限的邊緣設備優化,支持實時交互場景。
Doubao-1.5-pro 是一個高性能的稀疏 MoE 大語言模型,專注於推理性能與模型能力的極致平衡。
Alibaba
$2
輸入tokens/百萬
$20
輸出tokens/百萬
-
上下文長度
$4
$16
1k
256
Moonshot
Bytedance
$0.8
128
Xai
$1.4
$10.5
Deepseek
$12
Tencent
$1
32
Openai
$0.4
$0.75
64
24
Chatglm
$8
$0.7
$1.95
16
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通義千問團隊推出的新一代思考型大語言模型,採用創新的混合注意力機制和高稀疏MoE架構,在保持高效推理的同時具備強大的複雜推理能力,原生支持262K上下文長度。
inclusionAI
Ming-flash-omni 預覽版是基於 Ling-Flash-2.0 稀疏專家混合(MoE)架構構建的多模態大模型,總參數達100B,每個token僅激活6B參數。該模型在Ming-Omni基礎上進行了全面升級,在多模態理解和生成方面有顯著提升,特別是在語音識別、圖像生成和分割編輯方面表現突出。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通義千問團隊開發的高效稀疏混合專家模型,總參數量80B,激活參數量僅3B。該模型採用創新的混合注意力機制和極低激活率的MoE架構,在保持強大性能的同時大幅提升推理效率,原生支持262K上下文長度並可擴展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基於Qwen3-Next-80B-A3B-Thinking模型通過AWQ量化技術生成的4位版本,顯著提升了模型推理效率。該模型採用混合注意力機制和高稀疏MoE架構,在複雜推理任務中表現出色,支持長達262K標記的上下文長度。
Kwai-Klear
Klear是由快手Kwai-Klear團隊開發的稀疏混合專家(MoE)大語言模型,具備高性能和推理效率的特點。總參數460億,激活參數僅25億,在多個能力基準測試中表現出色,為實際應用提供了高效且強大的解決方案。
LanguageBind
MoE-LLaVA是一種基於專家混合架構的大型視覺語言模型,通過稀疏激活參數實現高效的多模態學習
MoE-LLaVA是一種基於專家混合架構的大規模視覺語言模型,通過稀疏激活參數實現高效的多模態學習。
hywu
Camelidae-8x34B是基於參數高效稀疏構建技術訓練的專家混合體(MoE)模型,採用8個專家34B參數規模,在通用指令微調任務上表現出色,特別擅長代碼和數學領域任務。
Camelidae-8x7B是基於參數高效稀疏構建技術的專家混合體模型,通過QLoRA和Adapter技術將密集模型轉換為MoE架構,在代碼和數學等多個領域表現出色。
google
基於掩碼語言建模任務訓練的混合專家(MoE)模型,參數規模達1.6萬億,採用類似T5的架構但前饋層替換為稀疏MLP層
Switch Transformers是基於專家混合(Mixture of Experts, MoE)架構的掩碼語言模型,在T5架構基礎上改進,用稀疏MLP層替代前饋層,包含32個專家網絡。該模型在訓練效率和微調任務表現上優於T5,支持自然語言處理相關應用。
Switch Transformers是基於混合專家(MoE)架構的語言模型,在掩碼語言建模任務上訓練。該模型架構與T5相似,但將前饋層替換為包含16個專家MLP的稀疏MLP層,在保持性能的同時實現了更快的訓練速度和更好的可擴展性。
Switch Transformers是基於混合專家(MoE)架構的語言模型,專為掩碼語言建模任務訓練。該模型架構與T5類似,但將前饋層替換為包含8個專家MLP的稀疏MLP層,在微調任務上表現優於T5,同時實現更快的訓練速度。