DeepSeek發佈V3.2標準版與深度思考版。評測顯示,V3.2在128k上下文場景下與GPT-5互有勝負;深度思考版在多項基準測試中與Gemini3Pro持平,並在IMO2025盲測中達到金牌分數線。核心升級是轉正稀疏注意力技術,通過優化token路由,顯著降低了長文本的計算複雜度、顯存佔用,並提升了推理速度,首次在開源模型中實現了百萬token的單卡推理能力。
12月1日,中國AI公司深度求索發佈DeepSeek-V3.2系列模型,包括標準版和高計算增強版。該系列採用創新的稀疏注意力機制(DSA),首次實現細粒度稀疏注意力,有效降低長文本處理的計算成本。模型強化了Agent能力,旨在挑戰GPT-5和Gemini 3.0 Pro等全球頂級AI模型。
MiniMax M2模型採用全注意力機制,放棄線性或稀疏注意力技術。開發團隊認爲,儘管後者能節省計算資源,但全注意力在工業應用中更高效,能提升模型性能。這一決策旨在優化實際部署效果,推動AI技術發展。
螞蟻集團開源百靈大模型Ring-flash-linear-2.0-128K,專攻超長文本編程。採用混合線性注意力與稀疏MoE架構,僅激活6.1B參數即可媲美40B密集模型,在代碼生成和智能代理領域達到最優表現,高效解決長上下文處理痛點。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通義千問團隊推出的新一代思考型大語言模型,採用創新的混合注意力機制和高稀疏MoE架構,在保持高效推理的同時具備強大的複雜推理能力,原生支持262K上下文長度。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基於DeepSeek-V3.2-Exp模型的量化版本,通過vLLM框架實現高效文本生成。該模型引入了DeepSeek稀疏注意力機制,在長上下文訓練和推理效率上有顯著提升,同時保持了模型輸出質量。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通義千問團隊開發的高效稀疏混合專家模型,總參數量80B,激活參數量僅3B。該模型採用創新的混合注意力機制和極低激活率的MoE架構,在保持強大性能的同時大幅提升推理效率,原生支持262K上下文長度並可擴展至1M令牌。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通義千問團隊開發的最新一代大型語言模型,採用創新的混合注意力機制和高稀疏專家混合架構,在保持80B總參數的同時僅激活3B參數,實現了高效的上下文建模和推理加速,原生支持262K上下文長度並可擴展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基於Qwen3-Next-80B-A3B-Thinking模型通過AWQ量化技術生成的4位版本,顯著提升了模型推理效率。該模型採用混合注意力機制和高稀疏MoE架構,在複雜推理任務中表現出色,支持長達262K標記的上下文長度。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基於Qwen3-Next-80B-A3B-Instruct模型進行4位AWQ量化的高效版本。該模型採用混合注意力機制和高稀疏專家混合架構,支持長達262K tokens的上下文長度,在保持高性能的同時大幅降低計算資源需求。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基礎模型,通過創新的混合注意力機制、高稀疏性專家混合層等技術,實現了在長文本處理上的高效建模和推理加速,在多個基準測試中展現出卓越性能。
FastVideo
FastWan2.1-T2V-1.3B-Diffusers是基於全新Sparse-distill策略微調的視頻生成模型,結合蒸餾和稀疏注意力優勢,支持高效的3步推理,能夠以61×448×832分辨率生成高質量視頻。
SeerAttention
為QwQ-32B模型引入注意力門控(AttnGates)權重的適配器,通過動態塊級稀疏性加速長上下文計算
inclusionAI
玲瓏線性預覽版是由InclusionAI開源發佈的混合線性稀疏大語言模型,總參數量17.1B,激活參數量3.0B。該模型基於混合線性注意力機制實現長文本推理,在推理過程中具備近線性計算複雜度與近恆定空間複雜度。
google
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理長達4096的序列,適用於長文檔任務。
ccdv
基於LEGAL-BERT的小型版本,採用局部+稀疏+全局注意力機制(LSG)高效處理長序列
LSG模型是基於BART-large改進的長序列處理模型,採用局部+稀疏+全局注意力機制,高效處理長文本任務
nsi319
基於稀疏注意力的Transformer模型,專為移動應用描述分類任務微調
monologg
基於稀疏注意力的韓語Transformer模型,能處理最長4096的序列
flax-community
Pino是基於BigBird架構的荷蘭語預訓練模型,採用稀疏注意力機制處理長序列文本,支持最長4096的序列長度。
BigBirdPegasus 是一種基於稀疏注意力的 Transformer 模型,能夠處理更長的序列,特別適用於長文檔摘要任務。
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理更長的序列,適用於長文檔摘要等任務。
BigBird是一種基於稀疏注意力的Transformer模型,能夠處理長達4096的序列,適用於長文檔摘要等任務。
基於CamemBERT-base調整的長序列處理模型,採用局部+稀疏+全局注意力機制(LSG),高效處理長文本
VGGT-MPS是基於蘋果芯片優化的3D視覺重建工具,使用Metal Performance Shaders加速,能夠從單張或多張圖像生成深度圖、相機姿態和3D點雲,支持稀疏注意力實現城市級重建。