Hugging Face近日公佈了2025年4月第二週最受歡迎模型榜單,涵蓋文本生成、圖像生成到視頻生成等多模態領域,凸顯了AI技術的快速迭代與多元化應用。據AIbase瞭解,本次榜單中的模型不僅展示了開源社區的創新活力,還反映了從低精度訓練到多模態生成的技術趨勢。以下爲榜單亮點解析,AIbase編輯團隊爲您帶來專業解讀。文本生成模型:高效與專業化並重 microsoft/bitnet-b1.58-2B-4T:作爲首款採用1-bit精度訓練的文本生成模型,BitNet以極低的計算成本實現高效推理,適合邊緣設備部署。其創新的量
近日,微軟研究團隊正式發佈了一款名爲 BitNet b1.582B4T 的開源大型語言模型。這款模型擁有20億參數,採用了獨特的1.58位低精度架構進行原生訓練,與傳統的訓練後量化方式相比,BitNet 在計算資源的需求上有了顯著的降低。根據微軟的介紹,該模型在非嵌入內存佔用方面僅爲0.4GB,遠低於市場上其他同類產品,如 Gemma-31B 的1.4GB 和 MiniCPM2B 的4.8GB。BitNet 的高效性能源於其創新的架構設計。模型放棄了傳統的16位數值,而是採用了定製的 BitLinear 層,限制權重爲 -1、0和 +1三種狀態,形成了三值
大型語言模型(LLMs)因出色的自然語言處理能力而聞名,但在實踐中,它們的推理階段面臨高計算成本和內存佔用的挑戰。爲了提高LLMs效率,研究人員引入了一項名爲 Q-Sparse 的技術。Q-Sparse 方法通過在激活中應用 top-K 稀疏化和直通估計器,實現了完全稀疏激活的狀態壓縮,顯著提升推理效率。研究發現,Q-Sparse 能在保持結果與 baseline LLMs相當的條件下,提高推理效率。這種方法適用於全精度和 1 位(如 BitNet b1.58)LLMs。 稀疏激活通過減少矩陣乘法和輸入/輸出傳輸量來提高效率。Q-Sparse 在每個線性投影中實現全激活稀疏化,通過 top-K 稀疏化函數實現與反向傳播中梯度計算的直通估計器相結合,進一步提高了激活稀疏性。採用平方 ReLU 函數提高激活稀疏性。 實驗結果揭示,隨着模型大小和稀疏比率的增加,稀疏激活模型的性能提高,這也適用於從頭開始訓練、已有的 LLMs 繼續訓練和微調。Q-Sparse 還被應用於包括 BitNet b1.58 和混合專家(MoE)在內的 LLMs,並探索兼容批量模式的優化以增加訓練和推理的靈活性。
["大語言模型迎來1-bit時代","微軟和中國科學院大學提出BitNet b1.58方法","將參數轉換成三進製表示","減少模型內存佔用和簡化計算過程","性能優化使得模型速度提高並減少內存使用","研究引發網友熱議和討論"]
1位大型語言模型推理框架
codys12
這是一個託管在Hugging Face Hub上的transformers模型,具體功能和用途需要進一步補充信息
該模型是一個基於transformers庫的模型,具體用途和功能需要進一步信息確認。
tdh111
微軟開發的1.58位量化大語言模型,專為高效推理設計,提供IQ2_BN和IQ2_BN_R4兩種量化版本
microsoft
微軟研究院開發的首個開源、原生1比特的大語言模型,參數規模達20億,在4萬億token的語料庫上訓練而成。
微軟研究院開發的首個開源20億參數規模原生1比特大語言模型,在4萬億token語料上訓練完成,證明了原生1比特大語言模型在保持與同規模全精度開源模型相當性能的同時,能顯著提升計算效率。
由微軟研究院開發的開源原生1位大語言模型,參數規模達20億,在4萬億token的語料庫上訓練而成,顯著提升計算效率。
HF1BitLLM
基於BitNet 1.58b架構微調的大型語言模型,基礎模型為Llama-3-8B-Instruct,採用極端量化技術
BoscoTheDog
BitNet b1.58 是一種1.58位量化的大型語言模型,通過降低權重精度來減少計算資源需求,同時保持接近全精度模型的性能。
1bitLLM
BitNet b1.58是一種1位大語言模型,參數規模為30億,使用RedPajama數據集訓練了1000億個token。
BitNet b1.58 3B是一種1位量化的大型語言模型,使用RedPajama數據集訓練了1000億token,在保持性能的同時顯著降低了計算資源需求。
BitNet b1.58是一種1.58位量化的大語言模型,通過量化權重到{-1,0,1}三值實現高效推理。該模型復現了原論文結果,在RedPajama數據集上訓練了1000億token。