グーグルが最近、Gemma3シリーズの最新版をリリースしたことで、多くのAI愛好家が沸き立っています。リリースからわずか1ヶ月後、グーグルは量子化感知トレーニング(QAT)で最適化されたGemma3を発表し、メモリ消費量の大幅削減と、同時にモデルの高品質維持を目指しました。

具体的には、QATで最適化されたGemma3 27Bモデルは、メモリ消費量が54GBから14.1GBに大幅に削減されました。これは、NVIDIA RTX3090などの消費レベルのGPUで、この大規模モデルをローカルで実行できるようになったことを意味します。簡単なテストでは、RTX3070搭載の機器でもGemma3の12Bバージョンを実行できました。トークンの出力速度はやや遅いものの、全体的なパフォーマンスは許容範囲内です。

image.png

QATの優れた点は、トレーニング中に直接量子化操作を組み込む点です。従来のトレーニング後に量子化を行う方法とは異なり、この方法は低精度演算を効果的にシミュレートすることで、より小さいバージョンに量子化した後のパフォーマンス低下を最小限に抑えます。グーグルは約5000ステップのQATトレーニングを行い、困惑度を54%低下させることに成功し、小型デバイスでも高い実行効果を維持できるようになりました。

image.png

現在、Gemma3の様々なバージョンは、様々なGPUで動作します。Gemma3 27Bを例にとると、NVIDIA RTX3090(24GB VRAM)1枚だけで簡単にローカル実行できます。Gemma3 12Bは、NVIDIA RTX4060などのより軽量なデバイスでも効率的に実行できます。このモデルの次元削減設計により、より多くのユーザーが強力なAI機能を体験できるようになり、リソースの限られたシステム(スマートフォンなど)でも利用可能になりました。

グーグルはまた、Ollama、LM Studio、MLXなどのツールと連携し、ユーザーがシームレスに体験できるようになっています。これらのツールはすべてGemma3 QATモデルの使用に対応しています。多くのユーザーが大きな期待を示し、グーグルがさらに効率的な量子化技術の開発を続けることを望んでいることは注目に値します。