月之暗面聯手UCLA推新模型Mixture-of-Expert,提升語言模型訓練效率
在人工智能領域,訓練大型語言模型(LLMs)已成爲推動技術進步的重要方向。然而,隨着模型規模和數據集的不斷擴大,傳統的優化方法 —— 特別是 AdamW—— 逐漸顯露出其侷限性。研究人員面臨着計算成本高、訓練不穩定等一系列挑戰,包括梯度消失或爆炸、參數矩陣更新不一致及分佈式環境下的資源需求高等問題。因此,迫切需要更高效、更穩定的優化技術來應對這些複雜性。爲了解決這些挑戰,Moonshot AI (月之暗面)與加州大學洛杉磯分校(UCLA)聯合開發了 Moonlight,一個使用 Muon 優