国产大模型GLM-5在2026年初实现重大突破,开源后在全球权威榜单Artificial Analysis中位列第四,评分与Claude Opus4.5相当。其核心创新包括:参数规模扩展至744B,预训练数据达28.5T;集成DeepSeek稀疏注意力机制,在保持长文本理解能力的同时降低部署成本;在编程与工程领域表现突出。
清华大学TSAIL实验室与生数科技合作推出开源视频生成加速框架TurboDiffusion,通过集成SageAttention和稀疏线性注意力机制,显著降低高分辨率视频处理的计算开销,在保持生成质量的同时,将端到端扩散推理速度提升100至200倍。
12月1日,中国AI公司深度求索发布DeepSeek-V3.2系列模型,包括标准版和高计算增强版。该系列采用创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,有效降低长文本处理的计算成本。模型强化了Agent能力,旨在挑战GPT-5和Gemini 3.0 Pro等全球顶级AI模型。
MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
Alibaba
$2
Input tokens/M
-
Output tokens/M
256
Context Length
$0.3
32
Openai
$1
01-ai
$0.99
Chatglm
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基于Qwen3-Next-80B-A3B-Thinking模型通过AWQ量化技术生成的4位版本,显著提升了模型推理效率。该模型采用混合注意力机制和高稀疏MoE架构,在复杂推理任务中表现出色,支持长达262K标记的上下文长度。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基础模型,通过创新的混合注意力机制、高稀疏性专家混合层等技术,实现了在长文本处理上的高效建模和推理加速,在多个基准测试中展现出卓越性能。
inclusionAI
玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型,总参数量17.1B,激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理,在推理过程中具备近线性计算复杂度与近恒定空间复杂度。
flax-community
Pino是基于BigBird架构的荷兰语预训练模型,采用稀疏注意力机制处理长序列文本,支持最长4096的序列长度。
ccdv
基于CamemBERT-base调整的长序列处理模型,采用局部+稀疏+全局注意力机制(LSG),高效处理长文本
基于LEGAL-BERT的小型版本,采用局部+稀疏+全局注意力机制(LSG)高效处理长序列
LSG模型是基于BART-large改进的长序列处理模型,采用局部+稀疏+全局注意力机制,高效处理长文本任务