最好的MLA AI工具模型_精選MLA資訊

AI資訊

螞蟻百靈 Ling-2.6-1T 正式開源:萬億參數規模對標 GPT-5.4

螞蟻百靈大模型今日開源萬億參數旗艦模型Ling-2.6-1T，採用MLA與LinearAttention混合架構實現“快思考”機制，提升智效比，在評測中展現高Token效率，解決真實生產流中的效率難題。

月之暗面推出新型混合線性注意力架構 “Kimi Linear”

月之暗面推出“Kimi Linear”混合線性注意力架構，在短長距離信息處理和強化學習中性能優於傳統全注意力方法。其核心Kimi Delta Attention優化了Gated DeltaNet，引入高效門控機制，提升有限狀態RNN的記憶管理效率。架構由三份KDA和一份全局MLA組成。

15.9k 11 小時前

DeepSeek發佈大模型訓練端到端論文，展示卓越工程深度

近日，DeepSeek發佈了一篇關於大模型訓練的最佳端到端技術論文，引發業界廣泛關注。該論文全面闡述了DeepSeek在大模型研發中的技術突破，涵蓋軟件、硬件及混合優化方案，展現了其令人驚歎的工程深度。在**軟件**層面，論文詳細介紹了多頭潛在注意力機制（MLA），顯著降低推理過程中的內存佔用;FP8混合精度訓練通過低精度計算提升效率，同時保證數值穩定性;DeepEP通信庫優化了專家並行(EP)通信，支持FP8低精度操作，加速MoE模型訓練與推理;LogFMT對數浮點格式則通過均勻化激活分佈，進一

15.9k 1 小時前

DeepSeek的MLA架構：大模型遷移的新突破

在人工智能領域，DeepSeek-R1的推出引發了廣泛關注，這一創新代表了 AI 產業的顛覆性進展。其多頭潛在注意力網絡（Multi-head Latent Attention，MLA）架構，藉助低秩壓縮技術顯著降低了訓練與推理的成本，甚至僅爲同等性能大模型的十分之一。這一成果由復旦大學 NLP 實驗室的博士後紀燾及其團隊共同完成，目標是讓任意預訓練的大語言模型能夠快速遷移到 MLA 架構，而無需重新從頭開始訓練。目前，主流大模型普遍基於標準的多頭注意力機制（MHA）及其變種，這些模型在推理成本上相較於 MLA

14.1k 1 小時前