14 अक्टूबर की सुबह, मंगो ग्रुप ने 1 ट्रिलियन पैरामीटर वाले थिंकिंग मॉडल Ring-1T का आधिकारिक रूप से लॉन्च किया और मॉडल वेट्स और ट्रेनिंग फॉर्मूला को पूरी तरह से ओपन सोर्स कर दिया। Ring-1T, 30 सितंबर को ओपन सोर्स किए गए प्रीव्यू वर्जन Ring-1T-preview के आधार पर, बड़े पैमाने पर वेरिफायबल रिवॉर्ड रिइनफॉर्समेंट लर्निंग (RLVR) ट्रेनिंग के लगातार विस्तार के साथ, ट्रिलियन बेस मॉडल के प्राकृतिक भाषा तर्क क्षमता को आगे बढ़ाया और RLHF ट्रेनिंग के माध्यम से मॉडल की सामान्य क्षमता को पूरा किया, जिसके परिणामस्वरूप विभिन्न कार्य सूची में अधिक संतुलित प्रदर्शन हुआ।

Ring-1T की गणित आदि जटिल तर्क क्षमता को आगे बढ़ाने के लिए, इस बार बेइलिंग टीम ने अधिक कठिन IMO2025 (अंतरराष्ट्रीय गणित ओलंपियाड) प्रश्नों का सामना किया, जिसमें Ring-1T को AWorld बहु-एजेंट फ्रेमवर्क में जोड़ा गया और पूरी तरह से प्राकृतिक भाषा तर्क के माध्यम से समाधान किया गया। परीक्षण परिणामों के अनुसार, Ring-1T ने केवल एक बार पहले, तीसरे, चौथे और पांचवें प्रश्न के समाधान किए, जो IMO के चांदी के पदक के स्तर के बराबर है, और यह पहला ओपन सोर्स सिस्टम बन गया जो IMO अंतरराष्ट्रीय गणित ओलंपियाड पुरस्कार जीत सकता है। Ring-1T छठे प्रश्न में जब इसका तीसरा प्रयास किया गया तो दूसरे प्रश्न के ज्यामितीय साबित करने के लिए लगभग पूर्ण उत्तर प्रक्रिया प्रस्तुत किया गया, जबकि शीर्ष बड़े मॉडल लगभग पूरी तरह से नाकाम रहे। छठे प्रश्न में, Ring-1T ने उत्तर को "4048" तक सीमित कर दिया (सही उत्तर 2112 है), जो Gemini2.5Pro के समान है। एक थिंकिंग मॉडल के रूप में, Ring-1T ने अपनी अद्वितीय सामान्य क्षमता का परिचय दिया, Arena-Hard V2 में मानव पसंद के साथ तुलना के परीक्षण में, Ring-1T ओपन सोर्स मॉडल के शीर्ष पर 81.59% सफलता दर रखता है, GPT-5-Thinking (High) के 82.91% के निकट है। ठोस क्षेत्रों के लिए चिकित्सा सवाल-जवाब टेस्ट HealthBench में, Ring-1T ओपन सोर्स क्षेत्र में उच्चतम अंक प्राप्त करता है।

b5dde46159e705ba03ac2e07481fb8b2.png

(Ring-1T और उद्योग के प्रमुख थिंकिंग मॉडल के प्रदर्शन की तुलना)

1 ट्रिलियन पैरामीटर थिंकिंग मॉडल के ट्रेनिंग की सबसे बड़ी समस्या ट्रेनिंग-इंफरेंस अंतर है, जिसमें ट्रेनिंग चरण और इंफरेंस चरण के कार्यान्वयन विवरण के कारण ट्रेनिंग और इंफरेंस के अंतर असमान हो जाते हैं, जिसके परिणामस्वरूप ट्रेनिंग के विफलता हो सकती है। Ring-1T मॉडल में, मंगो ने इस उद्योग चुनौती के सामने अपने विकसित "ईस पॉप (icepop)" एल्गोरिथ्म का उपयोग किया, जिसमें ट्रेनिंग-इंफरेंस वितरण अंतर को निम्न स्तर पर ठीक कर दिया जाता है, लंबे अनुक्रम, लंबे अवधि के ट्रेनिंग के लिए निश्चित किया जाता है। इसके अलावा, 1 ट्रिलियन पैरामीटर मॉडल के रिइनफॉर्समेंट लर्निंग ट्रेनिंग के लिए, मंगो ने उच्च कार्यक्षमता रिइनफॉर्समेंट लर्निंग सिस्टम ASystem का विकास किया (जिसमें खुले स्रोत उच्च कार्यक्षमता रिइनफॉर्समेंट लर्निंग फ्रेमवर्क AReaL भी शामिल है), विशेष रूप से 1 ट्रिलियन पैरामीटर मॉडल के वीडियो मेमोरी प्रबंधन और ट्रेनिंग-इंफरेंस वेट्स बदलाव के मामले में बहुत ही बारीक अनुकूलन किया गया, जिसके परिणामस्वरूप एक मशीन वीडियो मेमोरी अपशिष्ट के सेकंड में साफ करना, वेट्स शून्य अतिरेक बदलाव, बड़े पैमाने पर RL ट्रेनिंग को दैनिक रूप से स्थिर रखा गया।

image.png

(चित्र बाईं ओर: GRPO ट्रेनिंग-इंफरेंस अंतर ट्रेनिंग के साथ घातीय रूप से बढ़ रहा है, icepop अपेक्षाकृत स्थिर है; चित्र दाईं ओर: ट्रेनिंग-इंफरेंस अंतर का अधिकतम मान, GRPO ट्रेनिंग के साथ बहुत अधिक बढ़ रहा है, icepop कम जल स्तर पर बना रहता है)

इसके अलावा, इस बार जारी किए गए Ring-1T मॉडल में Ling2.0 आर्किटेक्चर के 1T base मॉडल के साथ बैक-ट्रेनिंग का उपयोग जारी रखा गया है। Ling2.0 में ऊंची बिखरी MoE आर्किटेक्चर, 1/32 एक्सपर्ट एक्टिवेशन अनुपात, FP8 मिश्रित अक्षरता, MTP आदि शामिल हैं, जिससे कार्यक्षम ट्रेनिंग और इंफरेंस सुनिश्चित किया जाता है। बैक-ट्रेनिंग चरण में, मंगो बेइलिंग टीम ने LongCoT-SFT + RLVR + RLHF बहु-चरण ट्रेनिंग के माध्यम से मॉडल की जटिल तर्क क्षमता और निर्देश अनुसरण और रचनात्मक लेखन आदि सामान्य क्षमता में महत्वपूर्ण सुधार किया।

बेइलिंग टीम के अनुसार, Ring-1T मॉडल एक 1 ट्रिलियन थिंकिंग मॉडल पर उनका पहला प्रयास है, और मंगो बेइलिंग टीम अगले संस्करण में मॉडल के प्रदर्शन को आगे बढ़ाएगी। वर्तमान में, उपयोगकर्ता HuggingFace, मोडा समुदाय के माध्यम से मॉडल डाउनलोड कर सकते हैं, और मंगो बेइलिंग बॉक्स आदि प्लेटफॉर्म के माध्यम से ऑनलाइन अनुभव कर सकते हैं।

67a3d280291d5154535fc80dc4cb9803.jpg