Microsoft ha logrado avances significativos en el campo de la inteligencia artificial y ha lanzado un modelo de razonamiento de agente de inteligencia artificial llamado rStar2-Agent. Este modelo utiliza un método innovador de aprendizaje por refuerzo de agentes, y lo más sorprendente es que, a pesar de tener solo 14 mil millones de parámetros, alcanzó una tasa de precisión del 80,6% en la prueba de razonamiento matemático AIME24, superando así al DeepSeek-R1 con 671 mil millones de parámetros (79,8%). Este rendimiento hace que las personas reexaminen la relación entre el tamaño de los parámetros del modelo y su rendimiento.

image.png

Además de sus excelentes resultados en tareas de razonamiento matemático, el rStar2-Agent también destacó en otros campos. En el benchmark de razonamiento científico GPQA-Diamond, el modelo obtuvo una tasa de precisión del 60,9%, superando al DeepSeek-V3 con un 59,1%. En la tarea de uso de herramientas para agentes BFCL v3, la tasa de finalización de la tarea fue del 60,8%, superando también al DeepSeek-V3 con un 57,6%. Estos datos muestran que el rStar2-Agent demuestra una gran capacidad de generalización en diversos tipos de tareas.

Para lograr este avance, Microsoft realizó tres innovaciones en infraestructura de entrenamiento, algoritmos y proceso de entrenamiento. Primero, en cuanto a la infraestructura, Microsoft construyó un servicio eficiente de ejecución de código aislado, capaz de procesar rápidamente muchas solicitudes de entrenamiento, apoyando hasta 45.000 llamadas concurrentes de herramientas por paso de entrenamiento, con un retardo promedio de solo 0,3 segundos. En segundo lugar, Microsoft presentó un nuevo algoritmo GRPO-RoC, que mediante mecanismos de recompensa efectivos y optimizaciones algorítmicas hace que el modelo sea más preciso y eficiente durante el razonamiento. Por último, el rStar2-Agent diseñó un proceso de entrenamiento eficiente basado en "finetuning no de razonamiento + aprendizaje por refuerzo en varias etapas", para garantizar que el modelo mejore continuamente en cada etapa.

Estos avances tecnológicos han hecho que el rStar2-Agent destaque en el campo de los agentes de inteligencia artificial y abran nuevas direcciones para la investigación y aplicación futuras de los agentes inteligentes.

Dirección del código abierto: https://github.com/microsoft/rStar

Puntos clave:

🌟 El modelo rStar2-Agent tiene solo 14 mil millones de parámetros, pero alcanzó una tasa de precisión del 80,6% en pruebas de razonamiento matemático, superando al DeepSeek-R1 con 671 mil millones de parámetros.

🔧 Microsoft realizó innovaciones en infraestructura, algoritmos y proceso de entrenamiento, asegurando un entrenamiento eficiente y un buen rendimiento del modelo.

📊 El rStar2-Agent mostró un excelente desempeño en tareas de razonamiento científico y uso de herramientas, demostrando una fuerte capacidad de generalización.