MiniMax M2模型采用全注意力机制,放弃线性或稀疏注意力技术。开发团队认为,尽管后者能节省计算资源,但全注意力在工业应用中更高效,能提升模型性能。这一决策旨在优化实际部署效果,推动AI技术发展。
月之暗面推出“Kimi Linear”混合线性注意力架构,在短长距离信息处理和强化学习中性能优于传统全注意力方法。其核心Kimi Delta Attention优化了Gated DeltaNet,引入高效门控机制,提升有限状态RNN的记忆管理效率。架构由三份KDA和一份全局MLA组成。
月之暗面推出革命性“Kimi Linear”混合线性注意力架构,在短长距离处理及强化学习中超越传统全注意力方法。核心创新“Kimi Delta Attention”优化门控机制,显著提升有限状态RNN记忆效率。独特架构由三部分Kimi模块构成,实现多场景性能突破。
中科大与字节跳动联合推出端到端长视频生成模型,能直接生成分钟级、480p分辨率、24fps的高质量视频,支持多镜头切换。核心创新是底层算法MoGA,这是一种全新注意力机制,专攻长视频生成难题,标志着国产视频生成技术实现关键突破。
minimax
-
Input tokens/M
Output tokens/M
1M
Context Length
moonshotai
Kimi Linear是一种混合线性注意力架构,在各种场景下包括短、长上下文以及强化学习扩展机制中,均优于传统的全注意力方法。它能有效解决传统注意力机制在长上下文任务中效率低下的问题,为自然语言处理等领域带来更高效的解决方案。
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。
facebook
Mask2Former是基于Transformer的统一图像分割模型,支持实例分割、语义分割和全景分割任务,采用掩码注意力机制提升性能
google
LongT5是基于T5架构的文本到文本转换模型,采用瞬态全局注意力机制高效处理长序列输入
ccdv
基于CamemBERT-base调整的长序列处理模型,采用局部+稀疏+全局注意力机制(LSG),高效处理长文本
基于LEGAL-BERT的小型版本,采用局部+稀疏+全局注意力机制(LSG)高效处理长序列
LSG模型是基于BART-large改进的长序列处理模型,采用局部+稀疏+全局注意力机制,高效处理长文本任务