24 अप्रैल को, कुन्लुन वानवे ने अपने बहु-मोडल अनुमान मॉडल Skywork-R1V2.0 (इसके बाद R1V2.0) को आधिकारिक तौर पर ओपन सोर्स करने की घोषणा की। इस उन्नत संस्करण ने दृश्य और पाठ अनुमान क्षमता दोनों में उल्लेखनीय सुधार किया है, खासकर उच्च माध्यमिक विज्ञान के कठिन प्रश्नों के गहन अनुमान और सामान्य कार्य परिदृश्यों में उत्कृष्ट प्रदर्शन किया है, जिसे वर्तमान में सबसे संतुलित दृश्य और पाठ अनुमान क्षमता वाला ओपन सोर्स बहु-मोडल मॉडल माना जा सकता है।
R1V2.0 का ओपन सोर्स न केवल कुन्लुन वानवे की बहु-मोडल क्षेत्र में तकनीकी क्षमता का प्रमाण है, बल्कि वैश्विक डेवलपर्स और शोधकर्ताओं को एक शक्तिशाली उपकरण भी प्रदान करता है, जिससे बहु-मोडल पारिस्थितिकी तंत्र के निर्माण को बढ़ावा मिलता है। इस मॉडल ने कई आधिकारिक बेंचमार्क परीक्षणों में ओपन सोर्स SOTA रिकॉर्ड को तोड़ा है, जो वाणिज्यिक क्लोज्ड-सोर्स मॉडल के बराबर क्षमता प्रदर्शित करता है।
प्रदर्शन में व्यापक सुधार, चीनी भाषा के परिदृश्य में अग्रणी
चीनी भाषा के परिदृश्य में R1V2.0 का प्रदर्शन विशेष रूप से उल्लेखनीय है, खासकर विज्ञान विषयों (गणित, भौतिकी, रसायन विज्ञान) के प्रश्नों के अनुमान के परिणामों में, इसे मुफ़्त AI समस्या-समाधान सहायक माना जा सकता है। इस मॉडल ने न केवल MMMU में 73.6 का उत्कृष्ट स्कोर प्राप्त किया है, जिससे ओपन सोर्स SOTA रिकॉर्ड टूट गया है, बल्कि ओलंपियाड बेंच पर 62.6 का स्कोर भी प्राप्त किया है, जो अन्य ओपन सोर्स मॉडल से काफी आगे है। इसके अलावा, MathVision, MMMU-PRO और MathVista जैसे कई दृश्य अनुमान रैंकिंग में, R1V2.0 ने उत्कृष्ट प्रदर्शन किया है, और कई क्षमताएँ अब क्लोज्ड-सोर्स वाणिज्यिक मॉडल के बराबर हैं।
पाठ अनुमान के संबंध में, R1V2.0 ने AIME2024 और LiveCodeBench जैसी चुनौतियों में क्रमशः 78.9 और 63.6 स्कोर प्राप्त किए हैं, जो मानव विशेषज्ञ स्तर की गणित और कोड समझ क्षमता प्रदर्शित करता है। ये परिणाम दर्शाते हैं कि R1V2.0 न केवल दृश्य अनुमान में उत्कृष्ट प्रदर्शन करता है, बल्कि पाठ अनुमान में भी उत्कृष्ट क्षमता रखता है।
तकनीकी हाइलाइट्स: बहु-मोडल पुरस्कार मॉडल और मिश्रित प्राथमिकता अनुकूलन
R1V2.0 के प्रदर्शन में सुधार कई तकनीकी नवाचारों के कारण हुआ है। इनमें सबसे आकर्षक नया बहु-मोडल पुरस्कार मॉडल Skywork-VL Reward और मिश्रित प्राथमिकता अनुकूलन तंत्र (MPO) है।
Skywork-VL Reward मॉडल बहु-मोडल सुदृढीकरण सीखने के लिए उच्च-गुणवत्ता वाले पुरस्कार संकेत प्रदान करता है, जो बहु-मोडल अनुमान मॉडल के लंबे क्रम आउटपुट की समग्र गुणवत्ता का सटीक मूल्यांकन कर सकता है। इस मॉडल ने दृश्य पुरस्कार मॉडल मूल्यांकन रैंकिंग VL-RewardBench में 73.1 का SOTA स्कोर प्राप्त किया है, और शुद्ध पाठ पुरस्कार मॉडल मूल्यांकन रैंकिंग RewardBench में 90.1 का उत्कृष्ट स्कोर भी प्राप्त किया है, जो बहु-मोडल और पाठ कार्यों में अपनी मजबूत सामान्यीकरण क्षमता को पूरी तरह से प्रदर्शित करता है।
MPO तंत्र कई हानि कार्यों को एक साथ अनुकूलित करके, बड़े मॉडल प्रशिक्षण में "गहन अनुमान में सुधार" और "सामान्य क्षमता बनाए रखना" की समस्या को हल करता है। R1V2.0 Skywork-VL Reward द्वारा प्रदान किए गए प्राथमिकता संकेतों का उपयोग करके, मॉडल को प्राथमिकता संगति अनुकूलन के लिए निर्देशित करता है, ताकि यह सुनिश्चित हो सके कि मॉडल में बहु-कार्य, बहु-क्षेत्रों में अच्छी सामान्य अनुकूलन क्षमता है। इसके अलावा, R1V2.0 ने गहन अनुमान क्षमता को प्रशिक्षित करते समय, नियम-आधारित समूह सापेक्ष रणनीति अनुकूलन GRPO विधि का उपयोग किया है, समूह के उम्मीदवार प्रतिक्रियाओं के बीच सापेक्ष पुरस्कार तुलना के माध्यम से, मॉडल को अधिक सटीक चयन और अनुमान पथ सीखने के लिए निर्देशित किया जाता है।
सतत ओपन सोर्स, AGI के विकास को बढ़ावा देना
कुन्लुन वानवे हमेशा कृत्रिम बुद्धिमत्ता के ओपन सोर्स और नवाचार को बढ़ावा देने के लिए समर्पित रहा है। R1V2.0 का ओपन सोर्स बहु-मोडल क्षेत्र में कुन्लुन वानवे का एक महत्वपूर्ण मील का पत्थर है। इस मॉडल के 38B वज़न और पूरी तकनीकी रिपोर्ट Hugging Face और GitHub पर पूरी तरह से ओपन सोर्स हो चुके हैं, डेवलपर्स इन संसाधनों तक स्वतंत्र रूप से पहुँच और उपयोग कर सकते हैं।
कुन्लुन वानवे का कहना है कि ओपन सोर्स नवाचार को बढ़ावा देता है, और AGI अंततः आ जाएगा। R1V2.0 ने न केवल ओपन सोर्स बहु-मोडल बड़े मॉडल की क्षमता सीमा में सफलता प्राप्त की है, बल्कि बहु-मोडल बुद्धिमान एजेंटों के निर्माण के लिए एक नया आधार मॉडल भी प्रदान किया है। भविष्य में, कुन्लुन वानवे "ओपन सोर्स, ओपन, सह-निर्माण" के सिद्धांत का पालन करते हुए, अग्रणी बड़े मॉडल और डेटासेट जारी करना जारी रखेगा, डेवलपर्स को सशक्त बनाएगा, उद्योग सहयोगी नवाचार को बढ़ावा देगा और सामान्य कृत्रिम बुद्धिमत्ता (AGI) की प्राप्ति प्रक्रिया को तेज करेगा।
-मॉडल वज़न:
Hugging Face - Skywork-R1V2.0-38B
-कोड रिपॉजिटरी:
GitHub - SkyworkAI/Skywork-R1V
-तकनीकी रिपोर्ट:
https://arxiv.org/abs/2504.16656