微软开源140亿参数rStar2-Agent模型,通过智能体强化学习技术实现突破。该模型在数学推理基准测试中超越6710亿参数的DeepSeek-R1,核心创新在于采用智能体交互机制替代传统思维链方法,能自主规划推理、调用Python代码验证并动态调整步骤,有效避免推理错误。
微软开源rStar2-Agent AI推理模型,仅140亿参数却在AIME24数学测试中取得80.6%准确率,超越6710亿参数的DeepSeek-R1。这一突破重新定义模型规模与性能关系,展现小参数模型的高效潜力。