O modelo rStar2-Agent, desenvolvido pelo Microsoft Research e aberto ao público, chamou a atenção no campo da raciocínio matemático de IA. Este modelo com 14 bilhões de parâmetros superou o modelo DeepSeek-R1, que possui 671 bilhões de parâmetros, em vários testes de referência matemática, graças à sua tecnologia inovadora de aprendizado por reforço de agentes.
A principal inovação do rStar2-Agent é abandonar o método tradicional de pensamento em cadeia, optando por mecanismos de interação entre agentes. O modelo é capaz de planejar autonomamente o processo de raciocínio, utilizar ferramentas de execução de código Python para validação e ajustar os passos de raciocínio com base nos feedbacks, evitando assim problemas comuns de acúmulo de erros encontrados nos métodos tradicionais CoT.
No benchmark oficial da American Invitational Mathematics Examination (AIME), o rStar2-Agent se destacou. No conjunto de dados AIME24, sua taxa de acerto pass@1 alcançou 80,6%, superando os 79,8% do DeepSeek-R1, 79,6% do o3-mini e 77,0% do Claude Opus4.0. Na prova AIME25, sua taxa de acerto foi de 69,8%, e na HMMT25, atingiu 52,7%.

Chama atenção que o comprimento das respostas do rStar2-Agent é significativamente menor. Na prova AIME24, o comprimento médio era de aproximadamente 9340 tokens, e na AIME25, cerca de 10943 tokens, apenas cerca da metade do DeepSeek-R1, demonstrando uma maior eficiência de raciocínio.
Em termos de eficiência de treinamento, o modelo completou 510 etapas de aprendizado por reforço em uma semana, usando 64 GPUs MI300X. Sua infraestrutura de aprendizado por reforço suporta até 45 mil chamadas simultâneas de ferramentas por etapa, com latência média de apenas 0,3 segundos.
O modelo introduziu o algoritmo GRPO-RoC para lidar com ruídos ambientais durante a execução de código, utilizando uma estratégia de "reamostragem quando correto" para manter trajetórias de raciocínio de alta qualidade e melhorar o efeito do treinamento.
Em termos de capacidade de generalização, o rStar2-Agent superou o DeepSeek-V3 no benchmark GPQA-Diamond de raciocínio científico e também mostrou bons resultados nas tarefas de uso de ferramentas BFCL v3 e em testes gerais como IFEval e Arena-Hard, demonstrando o impacto positivo do aprendizado por reforço de agentes sobre habilidades gerais.
A Microsoft disponibilizou o código e os métodos de treinamento do rStar2-Agent como código aberto, implementado com base no framework VERL para treinamento de aprendizado por reforço em múltiplas etapas. Essa conquista indica que, com estratégias de treinamento inteligentes, modelos pequenos podem competir com modelos grandes em tarefas específicas, oferecendo novas possibilidades para pesquisadores e desenvolvedores com recursos limitados.
Esses resultados desafiam a crença tradicional de que "quanto mais parâmetros, melhor", provando a importância dos métodos de treinamento e inovações arquiteturais no desenvolvimento da IA. Para a indústria de IA, isso pode indicar que o futuro se concentrará mais em eficiência e especialização, em vez de simplesmente buscar o tamanho dos modelos.




