微软推出新型语言模型 BitNet b1.58 2B4T,仅占用0.4GB内存
近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍,该模型在非嵌入内存占用方面仅为0.4GB,远低于市场上其他同类产品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值,而是采用了定制的 BitLinear 层,限制权重为 -1、0和 +1三种状态,形成了三值