國產大模型GLM-5在2026年初實現重大突破,開源後在全球權威榜單Artificial Analysis中位列第四,評分與Claude Opus4.5相當。其核心創新包括:參數規模擴展至744B,預訓練數據達28.5T;集成DeepSeek稀疏注意力機制,在保持長文本理解能力的同時降低部署成本;在編程與工程領域表現突出。
春節期間國產大模型集中發佈,智譜AI推出旗艦模型GLM-5,定位全能型對話、編程與智能體模型,採用稀疏注意力與多Token預測技術,參數量達745B,約爲前代兩倍。
清華大學TSAIL實驗室與生數科技合作推出開源視頻生成加速框架TurboDiffusion,通過集成SageAttention和稀疏線性注意力機制,顯著降低高分辨率視頻處理的計算開銷,在保持生成質量的同時,將端到端擴散推理速度提升100至200倍。
DeepSeek發佈V3.2標準版與深度思考版。評測顯示,V3.2在128k上下文場景下與GPT-5互有勝負;深度思考版在多項基準測試中與Gemini3Pro持平,並在IMO2025盲測中達到金牌分數線。核心升級是轉正稀疏注意力技術,通過優化token路由,顯著降低了長文本的計算複雜度、顯存佔用,並提升了推理速度,首次在開源模型中實現了百萬token的單卡推理能力。
Alibaba
$2
輸入tokens/百萬
-
輸出tokens/百萬
256
上下文長度
Bytedance
$0.8
128
$0.3
32
Openai
Stepfun
$1
Bigcode
8
01-ai
$0.99
Google
Chatglm
$17.5
$70
2.1k
$5
$9
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通義千問團隊推出的新一代思考型大語言模型,採用創新的混合注意力機制和高稀疏MoE架構,在保持高效推理的同時具備強大的複雜推理能力,原生支持262K上下文長度。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通義千問團隊開發的高效稀疏混合專家模型,總參數量80B,激活參數量僅3B。該模型採用創新的混合注意力機制和極低激活率的MoE架構,在保持強大性能的同時大幅提升推理效率,原生支持262K上下文長度並可擴展至1M令牌。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通義千問團隊開發的最新一代大型語言模型,採用創新的混合注意力機制和高稀疏專家混合架構,在保持80B總參數的同時僅激活3B參數,實現了高效的上下文建模和推理加速,原生支持262K上下文長度並可擴展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基於Qwen3-Next-80B-A3B-Thinking模型通過AWQ量化技術生成的4位版本,顯著提升了模型推理效率。該模型採用混合注意力機制和高稀疏MoE架構,在複雜推理任務中表現出色,支持長達262K標記的上下文長度。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基礎模型,通過創新的混合注意力機制、高稀疏性專家混合層等技術,實現了在長文本處理上的高效建模和推理加速,在多個基準測試中展現出卓越性能。
FastVideo
FastWan2.1-T2V-1.3B-Diffusers是基於全新Sparse-distill策略微調的視頻生成模型,結合蒸餾和稀疏注意力優勢,支持高效的3步推理,能夠以61×448×832分辨率生成高質量視頻。
SeerAttention
為QwQ-32B模型引入注意力門控(AttnGates)權重的適配器,通過動態塊級稀疏性加速長上下文計算
inclusionAI
玲瓏線性預覽版是由InclusionAI開源發佈的混合線性稀疏大語言模型,總參數量17.1B,激活參數量3.0B。該模型基於混合線性注意力機制實現長文本推理,在推理過程中具備近線性計算複雜度與近恆定空間複雜度。
google
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理長達4096的序列,適用於長文檔任務。
ccdv
LSG模型是基於BART-large改進的長序列處理模型,採用局部+稀疏+全局注意力機制,高效處理長文本任務
基於LEGAL-BERT的小型版本,採用局部+稀疏+全局注意力機制(LSG)高效處理長序列
nsi319
基於稀疏注意力的Transformer模型,專為移動應用描述分類任務微調
monologg
基於稀疏注意力的韓語Transformer模型,能處理最長4096的序列
flax-community
Pino是基於BigBird架構的荷蘭語預訓練模型,採用稀疏注意力機制處理長序列文本,支持最長4096的序列長度。
BigBirdPegasus 是一種基於稀疏注意力的 Transformer 模型,能夠處理更長的序列,特別適用於長文檔摘要任務。
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理更長的序列,適用於長文檔摘要等任務。
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理長達4096的序列,適用於長文檔摘要等任務。
基於CamemBERT-base調整的長序列處理模型,採用局部+稀疏+全局注意力機制(LSG),高效處理長文本
VGGT-MPS是基於蘋果芯片優化的3D視覺重建工具,使用Metal Performance Shaders加速,能夠從單張或多張圖像生成深度圖、相機姿態和3D點雲,支持稀疏注意力實現城市級重建。