Hugging Face近日公布了2025年4月第二周最受欢迎模型榜单,涵盖文本生成、图像生成到视频生成等多模态领域,凸显了AI技术的快速迭代与多元化应用。据AIbase了解,本次榜单中的模型不仅展示了开源社区的创新活力,还反映了从低精度训练到多模态生成的技术趋势。以下为榜单亮点解析,AIbase编辑团队为您带来专业解读。文本生成模型:高效与专业化并重 microsoft/bitnet-b1.58-2B-4T:作为首款采用1-bit精度训练的文本生成模型,BitNet以极低的计算成本实现高效推理,适合边缘设备部署。其创新的量
近日,微软研究团队正式发布了一款名为 BitNet b1.582B4T 的开源大型语言模型。这款模型拥有20亿参数,采用了独特的1.58位低精度架构进行原生训练,与传统的训练后量化方式相比,BitNet 在计算资源的需求上有了显著的降低。根据微软的介绍,该模型在非嵌入内存占用方面仅为0.4GB,远低于市场上其他同类产品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。BitNet 的高效性能源于其创新的架构设计。模型放弃了传统的16位数值,而是采用了定制的 BitLinear 层,限制权重为 -1、0和 +1三种状态,形成了三值
大型语言模型(LLMs)因出色的自然语言处理能力而闻名,但在实践中,它们的推理阶段面临高计算成本和内存占用的挑战。为了提高LLMs效率,研究人员引入了一项名为 Q-Sparse 的技术。Q-Sparse 方法通过在激活中应用 top-K 稀疏化和直通估计器,实现了完全稀疏激活的状态压缩,显著提升推理效率。研究发现,Q-Sparse 能在保持结果与 baseline LLMs相当的条件下,提高推理效率。这种方法适用于全精度和 1 位(如 BitNet b1.58)LLMs。 稀疏激活通过减少矩阵乘法和输入/输出传输量来提高效率。Q-Sparse 在每个线性投影中实现全激活稀疏化,通过 top-K 稀疏化函数实现与反向传播中梯度计算的直通估计器相结合,进一步提高了激活稀疏性。采用平方 ReLU 函数提高激活稀疏性。 实验结果揭示,随着模型大小和稀疏比率的增加,稀疏激活模型的性能提高,这也适用于从头开始训练、已有的 LLMs 继续训练和微调。Q-Sparse 还被应用于包括 BitNet b1.58 和混合专家(MoE)在内的 LLMs,并探索兼容批量模式的优化以增加训练和推理的灵活性。
["大语言模型迎来1-bit时代","微软和中国科学院大学提出BitNet b1.58方法","将参数转换成三进制表示","减少模型内存占用和简化计算过程","性能优化使得模型速度提高并减少内存使用","研究引发网友热议和讨论"]
1位大型语言模型推理框架
codys12
这是一个托管在Hugging Face Hub上的transformers模型,具体功能和用途需要进一步补充信息
该模型是一个基于transformers库的模型,具体用途和功能需要进一步信息确认。
tdh111
微软开发的1.58位量化大语言模型,专为高效推理设计,提供IQ2_BN和IQ2_BN_R4两种量化版本
microsoft
微软研究院开发的首个开源、原生1比特的大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成。
微软研究院开发的首个开源20亿参数规模原生1比特大语言模型,在4万亿token语料上训练完成,证明了原生1比特大语言模型在保持与同规模全精度开源模型相当性能的同时,能显著提升计算效率。
由微软研究院开发的开源原生1位大语言模型,参数规模达20亿,在4万亿token的语料库上训练而成,显著提升计算效率。
HF1BitLLM
基于BitNet 1.58b架构微调的大型语言模型,基础模型为Llama-3-8B-Instruct,采用极端量化技术
BoscoTheDog
BitNet b1.58 是一种1.58位量化的大型语言模型,通过降低权重精度来减少计算资源需求,同时保持接近全精度模型的性能。
1bitLLM
BitNet b1.58是一种1位大语言模型,参数规模为30亿,使用RedPajama数据集训练了1000亿个token。
BitNet b1.58 3B是一种1位量化的大型语言模型,使用RedPajama数据集训练了1000亿token,在保持性能的同时显著降低了计算资源需求。
BitNet b1.58是一种1.58位量化的大语言模型,通过量化权重到{-1,0,1}三值实现高效推理。该模型复现了原论文结果,在RedPajama数据集上训练了1000亿token。