テンセント混元、浮動小数点量子化トレーニングの新理論を発表、大規模モデルトレーニングの限界を明らかに
大規模言語モデル(LLM)の急速な発展に伴い、モデルのトレーニングと推論コストが研究とアプリケーションの焦点となっています。最近、テンセント混元チームは重要な研究を発表し、低ビット浮動小数点量子化トレーニングの「Scaling Laws」、つまり浮動小数点量子化トレーニングのスケーリング則について深く掘り下げました。この研究の中核は、モデルの精度を下げることで、性能を損なうことなく計算とストレージコストを大幅に削減する方法を探ることです。研究チームは...