近年、大規模言語モデル(LLM)のトレーニングはますます高価で複雑になり、限られた大手テクノロジー企業しか必要な計算リソースを持っていませんでした。しかし、Googleは最近、SALT(小規模モデルによる大規模モデルトレーニング支援)と呼ばれる新しい手法を発表し、この革新はAIトレーニングの状況を一変させる可能性があります。

ロボット 人工知能 AI (4)

画像出典:AI生成画像、画像ライセンス提供元Midjourney

Google ResearchとDeepMindの最新の研究論文「少しの助けで遠くへ:小型言語モデルを活用した効率的なLLMトレーニング」によると、SALTは新しい2段階のトレーニングプロセスを導入しています。この手法は効率的であるだけでなく、より実用的で、従来のトレーニング方法を変革します。

SALTの第一段階は知識蒸留です。この段階では、小型言語モデル(SLM)が教師として機能し、その理解した知識をより大きなモデルに伝達します。「ソフトラベル」を通じて学習した知識を共有することで、大規模モデルが学習初期段階で基本的な概念を習得するのを支援します。この段階は、小型モデルが学習領域において高い予測精度を持つ「簡単な」タスクに特に有効です。

第二段階は自己教師あり学習です。大規模モデルはこの段階で独立して学習を始め、より複雑なパターンと困難なタスクの習得に集中します。この移行には、線形減衰と線形比例減衰を含む綿密に設計された戦略が必要であり、これにより大規模モデルがスムーズに移行し、小型モデルへの依存を徐々に減らすことができます。

Googleの研究者たちは実験で、15億パラメーターの小型モデルを使用して28億パラメーターの大規模モデルをトレーニングした場合、「スタックデータセット」でのトレーニング時間が28%短縮されることを発見しました。微調整後、大規模モデルの数学問題の正解率は31.84%から34.87%に、読解力の正解率は63.7%から67%に向上しました。この新しい手法は、トレーニング効率を向上させるだけでなく、性能においても著しい進歩を遂げました。

SALTの登場は、AI開発のハードルを下げ、これまでリソースの制約を受けていた中小規模の研究機関や企業もAIモデルの開発に参加できるようになる可能性があります。研究開発の機会がより普及し、より独創的で専門性の高いAIソリューションが生まれることで、関連分野のイノベーションと応用が促進されるでしょう。

要点:

🌟 SALT手法を用いることで、大規模モデルのトレーニング時間を28%短縮し、計算コストを大幅に削減できます。

📈 小型モデルによる知識蒸留を用いることで、大規模モデルの複雑なタスクにおける性能を大幅に向上させることができます。

🔍 SALTの革新はAI開発のハードルを下げ、より多くの小規模機関がAI研究に参加できるようになる可能性があります。