微軟推出新型語言模型 BitNet b1.58 2B4T,僅佔用0.4GB內存
近日,微軟研究團隊正式發佈了一款名爲 BitNet b1.582B4T 的開源大型語言模型。這款模型擁有20億參數,採用了獨特的1.58位低精度架構進行原生訓練,與傳統的訓練後量化方式相比,BitNet 在計算資源的需求上有了顯著的降低。根據微軟的介紹,該模型在非嵌入內存佔用方面僅爲0.4GB,遠低於市場上其他同類產品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。BitNet 的高效性能源於其創新的架構設計。模型放棄了傳統的16位數值,而是採用了定製的 BitLinear 層,限制權重爲 -1、0和 +1三種狀態,形成了三值