Orca2: 小型言語モデルの推論能力向上

マイクロソフトの研究チームが発表した13億パラメーターのモデル、Orca2は、最近の論文で小型言語モデルの推論能力を向上させる方法を探っています。

強化されたトレーニング信号により、Orca2は同規模のモデルの中で、5~10倍大きいモデルに匹敵する、あるいはそれ以上の性能を達成しています。Orca2の目標は、小型言語モデルに様々な推論テクニックを教え込み、特定のタスクに最適な推論戦略を決定するのを支援することです。

前身であるOrca1と同様に、研究チームはより強力な大規模言語モデルの推論戦略を参考に、小型モデルの能力に合わせて丁寧に調整を行いました。Orca2は、「プロンプト消去」という慎重な推論技術を採用しており、具体的な推論ステップを実行するだけでなく、より高度なレベルでタスク処理戦略を策定することができます。

実証研究では、研究者らは15個のベンチマークテストでOrca2を包括的に評価しました。その結果、Orca2は同規模のモデルを明らかに凌駕し、高度な推論を必要とするタスクにおいても、5~10倍大きいモデルに匹敵、あるいはそれを上回る性能を示しました。

小型モデルの能力向上は、様々なアプリケーションの展開シナリオに新たな可能性を開き、効率性と機能性のバランスを実現します。