NVIDIA、新しいモデルトレーニングの計算能力を1.8倍削減する画期的なオープンソース化を発表
NVIDIAは、2つの新型大規模言語モデル、Nemotron-4-Minitron-4BとNemotron-4-Minitron-8Bをオープンソース化しました。構造化プルーニングと知識蒸留という効率的なトレーニング方法を採用することで、トレーニングに必要なリソースを大幅に削減し、データと計算能力の消費量を削減することに成功しました。従来の方法と比較して、新しいモデルのトレーニングに必要なトークンデータは40分の1に、計算コストは1.8分の1に削減されています。Llama-3.18Bを最適化することで、構造化プルーニングによりモデル構造を簡素化し、知識蒸留により性能を向上させています。Minitron