月之暗面推出“Kimi Linear”混合线性注意力架构,在短长距离信息处理和强化学习中性能优于传统全注意力方法。其核心Kimi Delta Attention优化了Gated DeltaNet,引入高效门控机制,提升有限状态RNN的记忆管理效率。架构由三份KDA和一份全局MLA组成。
月之暗面推出革命性“Kimi Linear”混合线性注意力架构,在短长距离处理及强化学习中超越传统全注意力方法。核心创新“Kimi Delta Attention”优化门控机制,显著提升有限状态RNN记忆效率。独特架构由三部分Kimi模块构成,实现多场景性能突破。
Minimax
$1
输入tokens/百万
$8
输出tokens/百万
128
上下文长度
moonshotai
Kimi Linear是一种高效混合线性注意力架构,在短上下文、长上下文和强化学习场景中均优于传统全注意力方法。它通过Kimi Delta Attention (KDA)机制优化注意力计算,显著提升性能和硬件效率,特别擅长处理长达100万令牌的长上下文任务。