微軟開源140億參數rStar2-Agent模型,通過智能體強化學習技術實現突破。該模型在數學推理基準測試中超越6710億參數的DeepSeek-R1,核心創新在於採用智能體交互機制替代傳統思維鏈方法,能自主規劃推理、調用Python代碼驗證並動態調整步驟,有效避免推理錯誤。
微軟開源rStar2-Agent AI推理模型,僅140億參數卻在AIME24數學測試中取得80.6%準確率,超越6710億參數的DeepSeek-R1。這一突破重新定義模型規模與性能關係,展現小參數模型的高效潛力。