騰訊發佈混元2.0大模型,含推理增強版和指令遵循版,總參數406B,支持256K上下文窗口,在數學、代碼等複雜推理任務上表現突出。模型採用MoE架構,已上線騰訊雲API並在部分應用灰度測試。
騰訊自研大模型混元2.0(Tencent HY2.0)正式發佈,與此同時,DeepSeek V3.2也逐步接入騰訊生態。目前,這兩大模型已在元寶、ima等騰訊AI原生應用中率先上線,騰訊雲也同步開放了相關模型的API及平臺服務。 全新發布的Tencent HY2.0採用混合專家(MoE)架構,總參數量高達4
阿里巴巴通義千問團隊在NeurIPS 2025獲最佳論文獎,論文《Attention Gating Makes Better Foundation Models》提出“滑動門”機制,在標準注意力後添加可學習門控,動態篩選關鍵頭和token參與下游計算。實驗證明,1.7B稠密模型性能媲美15B MoE模型。本屆大會投稿2萬篇,錄取率僅25%,競爭激烈,該論文是四篇獲獎作品中唯一中國成果。
DeepSeek團隊發佈236B參數數學大模型DeepSeek-Math-V2,採用MoE架構,僅激活21B參數,支持128K上下文。該模型以Apache2.0開源,引發下載熱潮。在數學測試中表現優異:MATH基準達75.7%,接近GPT-4o;AIME2024解題30中4,超越Gemini和Claude;Math Odyssey獲53.7%成績。其核心技術爲“自驗證”機制。
全球首個開源MoE視頻生成模型,支持文本/圖像轉720P視頻
通過先進的MoE技術在消費級GPU上將文本和圖像轉換為720P視頻。
Qwen2.5-Max是一個大規模的Mixture-of-Expert (MoE)模型,致力於提升模型智能。
Doubao-1.5-pro 是一個高性能的稀疏 MoE 大語言模型,專注於推理性能與模型能力的極致平衡。
Alibaba
$2
輸入tokens/百萬
$20
輸出tokens/百萬
-
上下文長度
$4
$16
1k
256
Moonshot
Bytedance
$0.8
128
Xai
$1.4
$10.5
Deepseek
$12
Tencent
$1
32
Openai
$0.4
$0.75
64
24
Chatglm
$8
$0.7
$1.95
16
PrimeIntellect
INTELLECT-3是一個擁有1060億參數的混合專家(MoE)模型,通過大規模強化學習訓練而成。在數學、編碼和推理基準測試中展現出卓越性能,模型、訓練框架和環境均以寬鬆許可協議開源。
Gjm1234
Wan2.2是基礎視頻模型的重大升級版本,專注於將有效MoE架構、高效訓練策略和多模態融合等創新技術融入視頻擴散模型,為視頻生成領域帶來更強大、更高效的解決方案。
ai-sage
GigaChat3-10B-A1.8B是GigaChat系列的對話模型,基於混合專家(MoE)架構,共有100億參數,其中18億為活躍參數。該模型採用多頭潛在注意力和多令牌預測技術,支持25.6萬令牌的長上下文,在多語言對話和推理任務中表現出色。
GigaChat3-10B-A1.8B-base是GigaChat系列的基礎預訓練模型,採用混合專家(MoE)架構,總參數100億,活躍參數18億。模型集成了多頭潛在注意力(MLA)和多令牌預測(MTP)技術,在推理時具備高吞吐量優勢。
bartowski
這是一個基於REAP方法對MiniMax-M2中40%專家進行均勻剪枝得到的139B參數大語言模型,採用GLM架構和專家混合(MoE)技術,通過llama.cpp進行多種量化處理,適用於文本生成任務。
Kiy-K
Fyodor-StarCoder2-7B-MoE是基於StarCoder2-7B的增強版本,採用混合專家架構,擁有3個MoE層、6個專家網絡和top-2路由機制,在代碼生成、函數調用和智能體任務方面表現優異。
NyxKrage
Moondream 3 Preview HF是基於HuggingFace Transformers架構規範對Moondream 3 (Preview)模型的重新實現,使其能夠與Hugging Face生態系統完全兼容。這是一個多模態視覺語言模型,採用專家混合(MoE)文本主幹,約90億參數,20億活躍參數。
Qwen
Qwen3-VL是通義系列最強大的視覺語言模型,採用混合專家模型架構(MoE),提供GGUF格式權重,支持在CPU、GPU等設備上進行高效推理。模型在文本理解、視覺感知、空間理解、視頻處理等方面全面升級。
unsloth
Qwen3-VL是迄今為止Qwen系列中最強大的視覺語言模型,在文本理解與生成、視覺感知與推理、上下文長度、空間和視頻動態理解以及智能體交互能力等方面都進行了全面升級。該模型採用混合專家(MoE)架構,提供卓越的多模態處理能力。
Qwen3-VL是通義大模型系列中最強大的視覺語言模型,具備卓越的文本理解與生成能力、深入的視覺感知與推理能力、長上下文支持、強大的空間和視頻動態理解能力以及出色的智能體交互能力。該模型採用混合專家(MoE)架構,是增強推理的思維版。
bullerwins
MiniMax-M2是一款專為最大化編碼和智能體工作流程而構建的小型混合專家(MoE)模型。它擁有2300億總參數,僅激活100億參數,在編碼和智能體任務中表現卓越,同時保持強大的通用智能,具有緊湊、快速且經濟高效的特點。
MiniMax-M2是一款專為最大化編碼和智能體工作流程而構建的'迷你'模型。它是一個緊湊、快速且經濟高效的混合專家(MoE)模型,在編碼和智能體任務中表現卓越,同時還具備強大的通用智能。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通義千問團隊推出的新一代思考型大語言模型,採用創新的混合注意力機制和高稀疏MoE架構,在保持高效推理的同時具備強大的複雜推理能力,原生支持262K上下文長度。
ubergarm2
這是inclusionAI/Ling-1T模型的量化版本集合,基於ik_llama.cpp分支開發,提供多種量化方案以適應不同的內存和性能需求。這些量化模型在給定的內存佔用下提供出色的困惑度表現,特別優化了MoE架構的推理效率。
inclusionAI
Ming-flash-omni 預覽版是基於 Ling-Flash-2.0 稀疏專家混合(MoE)架構構建的多模態大模型,總參數達100B,每個token僅激活6B參數。該模型在Ming-Omni基礎上進行了全面升級,在多模態理解和生成方面有顯著提升,特別是在語音識別、圖像生成和分割編輯方面表現突出。
MikeKuykendall
這是DeepSeek公司的DeepSeek-MoE-16B模型的Q4_K_M量化版本,通過llama.cpp的Rust綁定啟用了MoE(專家混合)CPU卸載功能,顯著減少顯存使用。
mlx-community
LFM2-8B-A1B是針對蘋果硅芯片優化的8位量化MLX構建版本,採用專家混合(MoE)架構,總參數約80億,每個令牌激活約10億參數,支持設備端快速推理。
nvidia
NVIDIA GPT-OSS-120B Eagle3是基於OpenAI gpt-oss-120b模型的優化版本,採用混合專家(MoE)架構,具備1200億總參數和50億激活參數。該模型支持商業和非商業使用,適用於文本生成任務,特別適合AI Agent系統、聊天機器人等應用開發。
這是基於WeOpenML的GPT-OSS 20B模型的GGUF格式版本,首次實現了創新的MoE CPU專家卸載技術。該技術在保持完整生成質量的同時,實現了99.9%的顯存縮減,僅需2MB顯存即可運行200億參數的混合專家模型。
bullpoint
GLM-4.6-AWQ是對智譜AI的GLM-4.6(357B MoE)進行高性能AWQ量化的模型,專為vLLM推理進行了優化,能有效提升生產部署的吞吐量。該模型採用4位量化技術,在保持高精度的同時顯著減少顯存佔用。
MOEX股票與新聞MCP服務器是一個基於Model Context Protocol的接口服務,提供莫斯科交易所股票行情、金融新聞查詢及分析功能,支持與大型語言模型集成。