माइक्रोसॉफ्ट ने हाल ही में AI क्षेत्र में महत्वपूर्ण प्रगति की है, एक ओपन सोर्स AI एजेंट रिज़निंग मॉडल rStar2-Agent को खुला किया है। इस मॉडल ने नवाचार के बोधक एजेंट मजबूती से सीखने के दृष्टिकोण का उपयोग किया है, अप्रत्याशित रूप से, यह 14 बिलियन पैरामीटर के साथ है, लेकिन AIME24 गणितीय तार्किक परीक्षण में 80.6% की सटीकता प्राप्त करता है, जो 671 बिलियन पैरामीटर वाले DeepSeek-R1 (79.8%) को पार कर जाता है। ऐसा प्रदर्शन मॉडल के पैरामीटर आकार और प्रदर्शन के बीच संबंध के बारे में लोगों के विचारों को फिर से सोचने के लिए बाध्य करता है।

image.png

गणितीय तार्किक कार्यों में अच्छे परिणामों के अलावा, rStar2-Agent अन्य क्षेत्रों में भी ध्यान आकर्षित करता है। GPQA-Diamond विज्ञानी तार्किक आधार परीक्षण में, इस मॉडल की सटीकता 60.9% रही, जो DeepSeek-V3 के 59.1% को पार कर गई; BFCL v3 एजेंट टूल उपयोग के कार्य में, इसकी कार्य पूर्णता दर 60.8% रही, जो DeepSeek-V3 के 57.6% से भी ऊपर रही। ये आंकड़े बताते हैं कि rStar2-Agent विभिन्न कार्यों में एक मजबूत सामान्यीकरण क्षमता दिखाता है।

इस प्रगति के लिए, माइक्रोसॉफ्ट ने अपने प्रशिक्षण बुनियादी ढांचा, एल्गोरिथ्म और प्रशिक्षण प्रक्रिया में तीन महत्वपूर्ण नवाचार किए। पहले, बुनियादी ढांचे में, माइक्रोसॉफ्ट ने एक अच्छी तरह से अलग किए गए कोड निष्पादन सेवा बनाई, जो बड़ी संख्या में प्रशिक्षण अनुरोधों को तेजी से प्रसंस्करण कर सकती है, जो प्रति प्रशिक्षण चरण में 45 हजार एकाधिक टूल उपयोग को समर्थित करता है, औसत देरी केवल 0.3 सेकंड होती है। दूसरे, माइक्रोसॉफ्ट ने नए GRPO-RoC एल्गोरिथ्म का अवमुख किया, पुरस्कार के प्रभावी तंत्र और एल्गोरिथ्म अनुकूलन के माध्यम से, मॉडल को तर्क प्रक्रिया में अधिक सटीक और कुशल बनाया गया। अंत में, rStar2-Agent ने "अनुकूलन बिना तर्क और बहु-चरण प्रबलित अधिगम" की दक्ष प्रशिक्षण प्रक्रिया का डिज़ाइन किया, ताकि मॉडल हर चरण में धीरे-धीरे क्षमता में सुधार कर सके।

इन तकनीकी प्रगति के कारण, rStar2-Agent AI एजेंट क्षेत्र में उभरा हुआ है, और भविष्य के बोधक अनुसंधान और अनुप्रयोगों के लिए नए दिशानिर्देश प्रदान करता है।

ओपन सोर्स लिंक: https://github.com/microsoft/rStar

मुख्य बातें:

🌟 rStar2-Agent मॉडल केवल 14 बिलियन पैरामीटर के साथ है, लेकिन गणितीय तार्किक परीक्षण में 80.6% की सटीकता प्राप्त करता है, जो 671 बिलियन पैरामीटर वाले DeepSeek-R1 को पार कर जाता है।

🔧 माइक्रोसॉफ्ट ने बुनियादी ढांचा, एल्गोरिथ्म और प्रशिक्षण प्रक्रिया में नवाचार किए, जो मॉडल के दक्ष प्रशिक्षण और अच्छे प्रदर्शन को सुनिश्चित करते हैं।

📊 rStar2-Agent विज्ञानी तार्किक और उपकरण उपयोग कार्यों में अच्छा प्रदर्शन करता है, जो एक मजबूत सामान्यीकरण क्षमता दिखाता है।