最近、グーグルのDeepMindチームは、ジョン・ケプラー林茨大学のLIT AIラボと協力し、人工知能言語モデルに関する新しい研究を開始しました。彼らは強化学習微調整(RLFT)技術を採用し、言語モデルの意思決定能力を向上させることが目的です。この研究の焦点は、思考連鎖の強化トレーニングを通じて、モデルが意思決定プロセスで抱えるいくつかの重要な問題を解決することにあります。

Gemini、Google DeepMind、人工知能、AI

ビッグデータの活用により、既存の言語モデルはテキスト処理において超えるべき能力を示しており、インタラクティブな環境では知識に基づいた意思決定も可能です。しかし、実際の意思決定では「理論だけ」の問題に直面することが多く、正しい戦略を導き出すことができても、効果的に実行できないことがあります。さらに、これらのモデルは短期間でより高い報酬を得られるオプションを優先する傾向があり、小さなモデルは頻度バイアスのためにしばしば一般的な行動を繰り返すことが多いです。

従来の強化学習手法、例えばUCBアルゴリズムなども一定程度の探索と活用のバランスを取ることができます。しかし、モデルの推論と行動の間に生じる乖離問題を完全には解決できません。そこで、DeepMindチームは革新的に強化学習微調整技術を導入し、モデルが自発的に生成した思考連鎖を訓練シグナルとして使用しました。システムは各推論ステップに対応する行動の報酬を評価し、論理的に整合性があり効果的な行動計画を選択させるように促しました。

実際の実施において、モデルは入力指示や歴史的な行動と報酬から、推論過程とアクションのシーケンスを生成します。モンテカルロベースライン評価と汎化アドバンテージ推定によって最適化され、無効なアクションを取るとペナルティが発動します。また、報酬形成技術の導入により、出力を規範的に保ちながら探求の空間を確保しました。

実験では、研究チームがマルチアームバンディットモデルをテストしました。10本の腕のテストでは、2Bパラメータモデルのアクションカバレッジが12ポイント向上しました。20本の腕のテストでは改善幅は小さかったものの、頻度バイアス率が70%から35%に低下し、研究の有効性が示されました。三目並べの実験結果では、モデルがランダムな対戦相手との勝率が5倍に向上し、最適なモンテカルロツリー探索エージェントとの対戦時の平均リターンが-0.95からゼロになりました。さらに、27Bの大規模モデルが正しい推論を行う確率は87%に達しましたが、微調整しない場合、最適なアクションを実行できるのはわずか21%でした。これらのデータは、強化学習微調整が推論と行動のギャップを縮小する有効性を証明しています。

ポイント:

📊 研究はAI言語モデルの意思決定能力を向上させるために強化学習微調整(RLFT)技術を使用しました。  

🧩 思考連鎖を自発的に生成してトレーニングすることで、モデルの論理的な推論と行動選択が向上しました。  

🏆 実験では、マルチアームバンディットや三目並べでモデルの性能が顕著に改善され、推論と実行のギャップが狭められました。