螞蟻集團發佈兩款創新 MoE 大模型,訓練成本大幅降低
近日,螞蟻集團的 Ling 團隊在預印版 Arxiv 平臺上發佈了題爲《每一個 FLOP 都至關重要:無需高級 GPU 即可擴展3000億參數混合專家 LING 大模型》的技術論文,介紹了他們研發的兩款新型大語言模型:百靈輕量版(Ling-Lite)和百靈增強版(Ling-Plus)。這兩款模型在設計上採用了多項創新,能夠在低性能硬件上高效訓練,顯著降低了成本。百靈輕量版的參數規模爲168億,其中激活參數爲27.5億。而增強版的基座模型則擁有高達2900億的參數,激活參數爲288億。這兩款模型的性能均達到行業領先水平,尤其