マイクロソフトは最近、AI分野で重要な進展を遂げ、rStar2-AgentというAIエージェント推論モデルをオープンソース化しました。このモデルは、革新的なインテリジェントエージェント強化学習の方法を採用しており、驚くべきことに、パラメータ数が140億であるにもかかわらず、AIME24数学推論テストでは80.6%の正確率を達成し、6710億のパラメータを持つDeepSeek-R1(79.8%)を上回りました。このような結果は、モデルのパラメータ規模と性能の関係性を再考させるものとなっています。
数学的推論タスクでの優れた成績に加え、rStar2-Agentは他の分野でも注目すべき成果を収めています。GPQA-Diamond科学的推論ベンチマークテストでは60.9%の正確率を達成し、DeepSeek-V3の59.1%を上回っています。また、BFCL v3のインテリジェントエージェントツール使用タスクでは、60.8%のタスク完了率を記録し、DeepSeek-V3の57.6%を上回っています。これらのデータは、rStar2-Agentがさまざまなタスクにおいて非常に高い汎化能力を持っていることを示しています。
この突破を実現するために、マイクロソフトは訓練インフラストラクチャ、アルゴリズムおよびトレーニングプロセスの3つのイノベーションを行いました。まず、インフラストラクチャに関しては、大量のトレーニング要求を迅速に処理できる効率的な隔離型コード実行サービスを構築しました。これは、トレーニングステップあたり最大45,000回の並列ツール呼び出しをサポートし、平均遅延はわずか0.3秒です。次に、マイクロソフトは新しいGRPO-RoCアルゴリズムを提案しました。これにより、効果的な報酬メカニズムとアルゴリズムの最適化を通じて、モデルが推論中により正確かつ効率的になります。最後に、rStar2-Agentは「非推論微調整 + 多段階強化学習」の効率的なトレーニングプロセスを設計し、モデルが各段階で安定して能力を向上させることを確保しています。
これらの技術的突破により、rStar2-AgentはAIエージェント分野で注目を集め、今後の知能体研究および応用の新たな方向を開拓しました。
オープンソースのアドレス: https://github.com/microsoft/rStar
ポイント:
🌟 rStar2-Agentは140億のパラメータしか持たず、数学的推論テストでは80.6%の精度を達成し、6710億のパラメータを持つDeepSeek-R1を上回りました。
🔧 マイクロソフトはインフラストラクチャ、アルゴリズム、トレーニングプロセスにおいてイノベーションを施し、モデルの効率的なトレーニングと優れたパフォーマンスを確保しました。
📊 rStar2-Agentは科学的推論やツール使用タスクにおいて優れた成績を収め、強い汎化能力を示しています。