月之暗面推出“Kimi Linear”混合線性注意力架構,在短長距離信息處理和強化學習中性能優於傳統全注意力方法。其核心Kimi Delta Attention優化了Gated DeltaNet,引入高效門控機制,提升有限狀態RNN的記憶管理效率。架構由三份KDA和一份全局MLA組成。
月之暗面推出革命性“Kimi Linear”混合線性注意力架構,在短長距離處理及強化學習中超越傳統全注意力方法。核心創新“Kimi Delta Attention”優化門控機制,顯著提升有限狀態RNN記憶效率。獨特架構由三部分Kimi模塊構成,實現多場景性能突破。
Minimax
$1
輸入tokens/百萬
$8
輸出tokens/百萬
128
上下文長度
moonshotai
Kimi Linear是一種高效混合線性注意力架構,在短上下文、長上下文和強化學習場景中均優於傳統全注意力方法。它通過Kimi Delta Attention (KDA)機制優化注意力計算,顯著提升性能和硬件效率,特別擅長處理長達100萬令牌的長上下文任務。