清华大学TSAIL实验室与生数科技合作推出开源视频生成加速框架TurboDiffusion,通过集成SageAttention和稀疏线性注意力机制,显著降低高分辨率视频处理的计算开销,在保持生成质量的同时,将端到端扩散推理速度提升100至200倍。
MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
月之暗面团队推出Kimi Linear模型,在AIGC领域实现技术突破。该模型采用混合线性注意力架构,处理长上下文速度提升2.9倍,解码速度提高6倍,性能超越传统Softmax注意力机制,特别在上下文处理和强化学习等场景表现优异。
月之暗面推出“Kimi Linear”混合线性注意力架构,在短长距离信息处理和强化学习中性能优于传统全注意力方法。其核心Kimi Delta Attention优化了Gated DeltaNet,引入高效门控机制,提升有限状态RNN的记忆管理效率。架构由三份KDA和一份全局MLA组成。
Alibaba
$2
Input tokens/M
-
Output tokens/M
256
Context Length
$0.3
32
Openai
Stepfun
$1
Bigcode
8
01-ai
$0.99
Google
Chatglm
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
jet-ai
Jet-Nemotron-4B是NVIDIA推出的高效混合架构语言模型,基于后神经架构搜索和JetBlock线性注意力模块两大核心创新构建,在性能上超越了Qwen3、Qwen2.5、Gemma3和Llama3.2等开源模型,同时在H100 GPU上实现了最高53.6倍的生成吞吐量加速。
inclusionAI
玲珑线性预览版是由InclusionAI开源发布的混合线性稀疏大语言模型,总参数量17.1B,激活参数量3.0B。该模型基于混合线性注意力机制实现长文本推理,在推理过程中具备近线性计算复杂度与近恒定空间复杂度。
RWKV
采用闪存线性注意力格式的RWKV-7模型,基于Pile数据集训练,支持英语文本生成任务。
采用闪存线性注意力(flash-linear attention)格式的RWKV-7模型,支持英语文本生成任务。
RWKV-7模型采用闪存线性注意力格式,支持多语言文本生成任务,参数量达29亿。
fla-hub
基于Flash线性注意力机制的RWKV-7 g1模型,支持多语言处理并具备深度思考能力
采用闪存线性注意力架构的RWKV-7模型,支持多语言文本生成任务。
GLA-1.3B-100B是一个具有13亿参数的门控线性注意力变换器模型,在1000亿个标记上进行训练。该模型采用硬件高效的训练方法,专注于文本生成任务,支持英文语言处理。
microsoft
Swin Transformer v2是基于ImageNet-1k预训练的视觉Transformer模型,采用分层特征图和局部窗口自注意力机制,具有线性计算复杂度。
Swin Transformer是一种层次化视觉Transformer,通过局部窗口计算自注意力实现线性计算复杂度,适合图像分类和密集识别任务。
uw-madison
YOSO是一种高效的Transformer变体,通过伯努利采样注意力机制将自注意力复杂度从二次降低到线性,支持长达4096的序列长度。
Swin Transformer是一种分层视觉Transformer,通过局部窗口计算自注意力实现线性计算复杂度,适合图像分类任务。