マイクロソフトが140億パラメータのrStar2-Agentモデルをオープンソース化。エージェント強化学習により数学推論で6710億パラメータのDeepSeek-R1を上回り、従来の思考連鎖法を置き換える自律推論・Pythonコード検証機能を実現。....
マイクロソフトがオープンソース化したrStar2-Agent(140億パラメータ)が、AIME24数学テストで80.6%の精度を達成。6710億パラメータのDeepSeek-R1を上回り、小型モデルの高性能化を示した。....