Llama 3圧縮版!Nvidiaが小型言語モデルLlama-3.1-Minitron4B(パラメーター数4億)を発表
Nvidiaの研究チームは、モデルプルーニングと知識蒸留技術を用いて、Llama 3の圧縮版であるLlama-3.1-Minitron4Bを発表しました。これは、デバイス上でのAIを実現することを目的とした、わずか4億パラメーターのモデルです。深度プルーニングと幅方向プルーニング技術により、元の80億パラメーターのモデルから大幅にパラメーター数を削減しながら、大規模モデルに匹敵する性能を維持しています。トレーニングデータ量が大幅に削減(40倍)されたにも関わらず、MMLUベンチマークテストにおいて16%の性能向上を実現しました。この成果はNVIDIAのNe…