腾讯微信AI团队推出新型扩散语言模型WeDLM,旨在提升文本生成效率。该模型结合扩散模型与因果注意力机制,通过拓扑重排技术兼容KV缓存,解决了传统扩散模型因双向注意力导致的推理效率问题,突破了GPT等大模型在并行推理上的限制。
清华大学TSAIL实验室与生数科技合作推出开源视频生成加速框架TurboDiffusion,通过集成SageAttention和稀疏线性注意力机制,显著降低高分辨率视频处理的计算开销,在保持生成质量的同时,将端到端扩散推理速度提升100至200倍。
商汤科技与南洋理工大学联合推出原生多模态架构NEO,并开源2B与9B模型。该架构摒弃传统三段式设计,从注意力机制到语义映射全面重构,实现“像素到Token”的连续映射,数据需求仅为行业平均的十分之一。
12月1日,中国AI公司深度求索发布DeepSeek-V3.2系列模型,包括标准版和高计算增强版。该系列采用创新的稀疏注意力机制(DSA),首次实现细粒度稀疏注意力,有效降低长文本处理的计算成本。模型强化了Agent能力,旨在挑战GPT-5和Gemini 3.0 Pro等全球顶级AI模型。
快速且内存高效的精确注意力机制
MoBA 是一种用于长文本上下文的混合块注意力机制,旨在提升大语言模型的效率。
FlashInfer是一个用于大型语言模型服务的高性能GPU内核库。
高效长序列大型语言模型推理技术
Alibaba
$2
Input tokens/M
-
Output tokens/M
256
Context Length
Openai
$8.75
$70
400
$0.3
32
Tencent
$3
$9
16
Google
1k
Anthropic
$21
$105
200
131
Stepfun
$1
Baichuan
$8
Bigcode
8
01-ai
$0.99
Chatglm
squ11z1
Hypnos-i2-32B是世界首个采用多物理熵(超导体、真空、核衰变)训练的320亿参数语言模型。它通过输入级量子正则化技术,从三个独立的量子熵源中学习真正的量子随机性,使其注意力机制对对抗性扰动具有鲁棒性,并能有效抵抗模式崩溃。
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
ServiceNow-AI
Apriel-H1-15b-Thinker 是一款拥有150亿参数的混合推理模型,结合了Transformer注意力机制和Mamba状态空间层,在推理、数学和编码等方面表现出色,具备高效性和可扩展性。
FlameF0X
i3-80M是一种创新的混合架构语言模型,结合了卷积/循环层与全注意力层的优势。该模型采用RWKV风格的时间混合与Mamba状态空间动态,在早期层实现高效序列处理,在深层使用标准多头注意力机制进行复杂模式识别。
jackcloudman
Qwen3-Next-80B-A3B-Thinking 是通义千问团队推出的新一代思考型大语言模型,采用创新的混合注意力机制和高稀疏MoE架构,在保持高效推理的同时具备强大的复杂推理能力,原生支持262K上下文长度。
QuantTrio
DeepSeek-V3.2-Exp-AWQ是基于DeepSeek-V3.2-Exp模型的量化版本,通过vLLM框架实现高效文本生成。该模型引入了DeepSeek稀疏注意力机制,在长上下文训练和推理效率上有显著提升,同时保持了模型输出质量。
cpatonn
Qwen3-Next-80B-A3B-Instruct是通义千问团队开发的高效稀疏混合专家模型,总参数量80B,激活参数量仅3B。该模型采用创新的混合注意力机制和极低激活率的MoE架构,在保持强大性能的同时大幅提升推理效率,原生支持262K上下文长度并可扩展至1M令牌。
unsloth
Qwen3-Next-80B-A3B-Instruct是阿里巴巴通义千问团队开发的最新一代大型语言模型,采用创新的混合注意力机制和高稀疏专家混合架构,在保持80B总参数的同时仅激活3B参数,实现了高效的上下文建模和推理加速,原生支持262K上下文长度并可扩展至1M令牌。
Qwen3-Next-80B-A3B-Thinking-AWQ-4bit是基于Qwen3-Next-80B-A3B-Thinking模型通过AWQ量化技术生成的4位版本,显著提升了模型推理效率。该模型采用混合注意力机制和高稀疏MoE架构,在复杂推理任务中表现出色,支持长达262K标记的上下文长度。
Qwen3-Next-80B-A3B-Instruct-AWQ-4bit是基于Qwen3-Next-80B-A3B-Instruct模型进行4位AWQ量化的高效版本。该模型采用混合注意力机制和高稀疏专家混合架构,支持长达262K tokens的上下文长度,在保持高性能的同时大幅降低计算资源需求。
Qwen
Qwen3-Next-80B-A3B-Instruct是Qwen3-Next系列的基础模型,通过创新的混合注意力机制、高稀疏性专家混合层等技术,实现了在长文本处理上的高效建模和推理加速,在多个基准测试中展现出卓越性能。
fredzzp
Open-DCoder 0.5B 是一个基于Qwen2架构的代码生成掩码扩散模型,参数量为5亿。该模型采用双向注意力机制和创新的扩散生成方法,专门用于代码生成任务。
ubergarm
Kimi-Dev-72B的量化版本,采用先进的非线性最优量化和多头潜在注意力机制,减少存储和计算需求。
tiiuae
Falcon-H1是由阿联酋技术创新研究所开发的新型大语言模型家族,采用结合Transformer注意力机制和状态空间模型(SSMs)的混合架构,具备出色的长上下文记忆能力和计算效率。该系列模型提供从0.5B到34B参数的多种配置,在推理、数学、多语言任务等方面表现卓越。
Featherless-Chat-Models
Mistral-7B-v0.1是一个拥有70亿参数的预训练生成式文本大语言模型,在多项基准测试中表现优于Llama 2 13B模型。它采用了先进的Transformer架构设计,包括分组查询注意力和滑动窗口注意力机制。
inclusionAI
玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型,总参数量17.1B,激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理,在推理过程中具备近线性计算复杂度与近恒定空间复杂度。
wubingheng
Doge模型采用动态掩码注意力机制进行序列转换,可选择多层感知机或跨域专家混合进行状态转换。
MagicaNeko
一个基于UNet架构并集成空间注意力机制的卫星影像分割模型,专门用于处理多光谱数据中的云层检测任务。
SmallDoge
Doge模型采用动态掩码注意力机制进行序列转换,并可使用多层感知机或跨域专家混合进行状态转换。