31 अगस्त को, शंघाई आर्टिफिशियल इंटेलिजेंस लैब (शंघाई एआई लैब) ने मल्टीमीडिया बड़ा मॉडल "शुएन वांगझाओ" InternVL3.5 के ओपन सोर्स रिलीज की घोषणा की। इस मॉडल ने नवाचार कैस्केड रिनफोर्समेंट लर्निंग (कैस्केड RL), डायनामिक विजुअल रेजॉल्यूशन रूटिंग और डिस्यूनेटेड डेप्लॉयमेंट आर्किटेक्चर के माध्यम से रिजनिंग क्षमता, डेप्लॉयमेंट दक्षता और सामान्य क्षमता के सभी पहलूओं में पूर्ण उन्नति हासिल की। InternVL3.5 के 1B से 241B तक के सभी आकार के मॉडल ओपन सोर्स कर दिए गए हैं, जो ओपन सोर्स मॉडल के प्रदर्शन के नए मानक बन गए हैं और विभिन्न कार्यों में अग्रणी स्थिति में हैं।
इंटर्नवीएल 3.5 के फ्लैगशिप मॉडल इंटर्नवीएल 3.5-241B-A28B ने मल्टीडिसिप्लिनरी रिजनिंग बेंचमार्क MMMU में ओपन सोर्स मॉडल के लिए उच्चतम स्कोर 77.7 अंक हासिल किया, मल्टीमीडिया जनरल पेरसेप्शन बेंचमार्क MStar और OCRBench में क्रमशः 77.9 और 90.7 अंक हासिल किए, जो GPT-5 (75.7 अंक/80.7 अंक) से अधिक है। टेक्स्ट रिजनिंग बेंचमार्क AIME25 और MMLU-Pro में क्रमशः 75.6 और 81.3 अंक हासिल किए, जो मौजूदा ओपन सोर्स मल्टीमीडिया बड़े मॉडल के लिए पूर्ण रूप से अग्रणी हैं। कैस्केड रिनफोर्समेंट लर्निंग फ्रेमवर्क के माध्यम से, पूरे श्रृंखला मॉडल के रिजनिंग प्रदर्शन में पिछली पीढ़ी के मुकाबले औसतन 16.0 अंक की वृद्धि हुई है। इनमें, इंटर्नवीएल 3.5-241B-A28B के संयुक्त रिजनिंग प्रदर्शन 66.9 अंक तक पहुंच गया है, जो पिछले मॉडल के 54.6 अंक और क्लॉड-3.7-सॉनेट के 53.9 अंक से ऊपर है, गणितीय रिजनिंग, तार्किक रिजनिंग आदि जैसे जटिल कार्यों में उल्लेखनीय प्रदर्शन किया है।
नवाचार विजुअल रेजॉल्यूशन रूटिंग (ViR) और डिस्यूनेटेड डेप्लॉयमेंट फ्रेमवर्क (DvD) के माध्यम से, 38B मॉडल के अंतर्निहित प्रतिक्रिया गति में वृद्धि हुई है, एक बार के रिजनिंग देरी 369ms से घटकर 91ms हो गई है (लगभग 4 गुना बढ़ा हुआ है)। इसके साथ, सुलभ रूप से इंटर्नवीएल 3.5-फ्लैश के विजुअल अनुक्रम लंबाई के 50% कम करने के बावजूद, यह लगभग 100% के प्रदर्शन स्तर पर बना रहा है।
इंटर्नवीएल 3.5 ने GUI एजेंट, शारीरिक एजेंट, SVG ग्राफिक्स के अर्थ और जनरेशन जैसे मुख्य एजेंट क्षमताओं को मजबूत किया है, ScreenSpot GUI स्थिति (92.9 अंक), VSI-Bench स्पेसियल रिजनिंग (69.5 अंक), SGP-Bench वेक्टर ग्राफिक्स के अर्थ (70.6 अंक) आदि कार्यों में मुख्य ओपन सोर्स मॉडल से आगे रहा है।
इंटर्नवीएल 3.5 10 बिलियन से 241 बिलियन अंक के कुल नौ आकार के मॉडल प्रदान करता है, जो विभिन्न संसाधन आवश्यकताओं के दृष्टिकोण को कवर करता है, घन मॉडल और विशेषज्ञ मिश्रित मॉडल (MoE) के साथ, यह पहला ओपन सोर्स मल्टीमीडिया बड़ा मॉडल है जो GPT-OSS भाषा मॉडल बेस का समर्थन करता है। आधिकारिक रूप से `transformers` का उपयोग करके `InternVL3.5-8B` मॉडल चलाने के उदाहरण को प्रदान किया गया है, मॉडल को एक ही A100 GPU पर डेप्लॉय किया जा सकता है, जबकि 38B मॉडल के लिए 2 A100 GPU की आवश्यकता होती है, 235B मॉडल के लिए 8 A100 GPU की आवश्यकता होती है।
ms-swift InternVL3.5 श्रृंखला मॉडल के लिए प्रशिक्षण का समर्थन करता है। ms-swift माओडा समुदाय द्वारा आधिकारिक रूप से प्रदान किए गए बड़े मॉडल और मल्टीमीडिया बड़े मॉडल के प्रशिक्षण डेप्लॉयमेंट फ्रेमवर्क है। उपयोगकर्ता डेटा को विशिष्ट प्रारूप में तैयार करके अपने अनुकूलित डेटासेट के साथ अनुकूलित कर सकते हैं। प्रशिक्षण के बाद, उपयोगकर्ता उपयुक्त आदेश के साथ अनुमान लगा सकते हैं और मॉडल को ModelScope पर पुश कर सकते हैं।
इंटर्नवीएल 3.5 के जारी करने से मल्टीमीडिया बड़े मॉडल प्रौद्योगिकी के लिए एक अन्य महत्वपूर्ण प्रगति हुई है, जो अनुसंधानकर्ताओं और विकासकर्ताओं के लिए एक शक्तिशाली उपकरण प्रदान करता है, और मल्टीमीडिया कृत्रिम बुद्धिमत्ता के विकास को आगे बढ़ाता है।
कोड ओपन सोर्स/मॉडल उपयोग के तरीका:
https://github.com/OpenGVLab/InternVL
मॉडल संग्रह:
https://www.modelscope.cn/collections/InternVL35-Full-3871e58bf21349
ऑनलाइन अनुभव:
https://chat.intern-ai.org.cn/