DeepSeek的MLA架構:大模型遷移的新突破
在人工智能領域,DeepSeek-R1的推出引發了廣泛關注,這一創新代表了 AI 產業的顛覆性進展。其多頭潛在注意力網絡(Multi-head Latent Attention,MLA)架構,藉助低秩壓縮技術顯著降低了訓練與推理的成本,甚至僅爲同等性能大模型的十分之一。這一成果由復旦大學 NLP 實驗室的博士後紀燾及其團隊共同完成,目標是讓任意預訓練的大語言模型能夠快速遷移到 MLA 架構,而無需重新從頭開始訓練。目前,主流大模型普遍基於標準的多頭注意力機制(MHA)及其變種,這些模型在推理成本上相較於 MLA