騰訊混元發佈浮點量化訓練新理論,揭示大模型訓練的極限
在大模型(Large Language Model,LLM)快速發展的今天,模型的訓練和推理成本日益成爲研究和應用的關注焦點。最近,騰訊混元團隊發佈了一項重要研究,深入探討了低比特浮點量化訓練的 “Scaling Laws”,即浮點數量化訓練的規模法則。此項研究的核心在於通過降低模型的精度,探索如何在不損失性能的情況下,顯著降低計算和存儲成本。研究團隊進行了多達366組不同參數規模和精度的浮點數量化訓練,系統分析了影響訓練效果的多種因素,包括模型大小(N)、訓練數據量(D)、指數位(E)、尾