Microsoft hat kürzlich bedeutende Fortschritte im Bereich Künstliche Intelligenz erzielt und ein KI-Agent-Reasoning-Modell namens rStar2-Agent als Open Source veröffentlicht. Dieses Modell verwendet eine innovative Methode des Agenten-Verstärkungslernens. Überraschenderweise erreichte es mit nur 14 Milliarden Parametern eine Genauigkeit von 80,6 % bei dem AIME24-Mathematik-Reasoning-Test und übertraf damit den DeepSeek-R1 mit 671 Milliarden Parametern (79,8 %). Diese Leistung lässt Menschen erneut über die Beziehung zwischen der Anzahl der Parameter eines Modells und seiner Leistung nachdenken.
Zusätzlich zu seinen hervorragenden Ergebnissen bei mathematischen Reasoning-Aufgaben zeigt rStar2-Agent auch beeindruckende Leistungen in anderen Bereichen. Bei dem wissenschaftlichen Reasoning-Benchmark GPQA-Diamond erreichte das Modell eine Genauigkeit von 60,9 % und übertraf damit DeepSeek-V3 mit 59,1 %. Bei der BFCL v3-Aufgabe zur Nutzung von Agententools erreichte es eine Aufgabenbearbeitungsrate von 60,8 %, was ebenfalls höher ist als die von DeepSeek-V3 mit 57,6 %. Diese Daten zeigen, dass rStar2-Agent starke Generalisierungsfähigkeiten in verschiedenen Aufgaben aufweist.
Um diesen Durchbruch zu erreichen, haben Microsoft drei Innovationen in den Trainingsinfrastrukturen, Algorithmen und Trainingsprozessen vorgenommen. Zunächst hat Microsoft einen effizienten isolierten Code-Ausführungs-Dienst gebaut, der große Mengen an Trainingsanfragen schnell verarbeiten kann und bis zu 45.000 gleichzeitige Werkzeugaufrufe pro Trainingsstufe unterstützt, wobei die durchschnittliche Verzögerung nur 0,3 Sekunden beträgt. Als zweites hat Microsoft einen neuen GRPO-RoC-Algorithmus vorgeschlagen, der durch effektive Belohnungsmechanismen und algorithmische Optimierungen dazu beiträgt, dass das Modell während des Reasoning-Prozesses genauer und effizienter wird. Schließlich hat rStar2-Agent einen effizienten Trainingsprozess „Nicht-Reasoning-Finetuning + mehrstufiges Verstärkungslernen“ entworfen, um sicherzustellen, dass das Modell in jeder Phase kontinuierlich seine Fähigkeiten verbessert.
Diese technischen Durchbrüche haben dazu geführt, dass sich rStar2-Agent in der KI-Agent-Branche hervorgetan hat und neue Wege für zukünftige Forschung und Anwendungen von Agenten eröffnet.
Open Source-Adresse: https://github.com/microsoft/rStar
Wichtige Punkte:
🌟 Das rStar2-Agent-Modell hat nur 14 Milliarden Parameter, aber bei einem Mathematik-Reasoning-Test erreichte es eine Genauigkeit von 80,6 % und übertraf damit den DeepSeek-R1 mit 671 Milliarden Parametern.
🔧 Microsoft hat Innovationen in der Infrastruktur, Algorithmen und Trainingsprozessen vorgenommen, um eine effiziente Trainierung und herausragende Leistung des Modells zu gewährleisten.
📊 rStar2-Agent zeigte ausgezeichnete Leistungen bei wissenschaftlichem Reasoning und der Nutzung von Werkzeugen und demonstrierte starke Generalisierungsfähigkeiten.