ही लैब हाल ही में अपने पहले स्वयं विकसित बहुमाध्यम बड़ा मॉडल डॉट्स.वीएलएम1 को जारी करके खुला स्रोत बना दिया। इस मॉडल के पीछे 12 बिलियन पैरामीटर के नाविट विजुअल कोडर और डीपसीक वी3 बड़ा भाषा मॉडल है, जिसे शुरू से पूरी तरह से प्रशिक्षित किया गया है, जिसकी अद्भुत क्षमता बहुमाध्यम दृश्य समझ और तार्किक क्षमता में वर्तमान निजी मॉडल, जैसे जीमीनी 2.5 प्रो और सीड-वीएल1.5 के समान हो गई है, जो खुले स्रोत बहुमाध्यम मॉडल के प्रदर्शन के नए शिखर को चिह्नित करता है।
स्वयं विकसित नवाचार, प्रदर्शन में अग्रणी
डॉट्स.वीएलएम1 के मुख्य विशेषता इसके मूल रूप से विकसित नाविट विजुअल कोडर है। पारंपरिक मॉडल के आधार पर सुधार के विपरीत, नाविट शुरू से प्रशिक्षित है और डायनामिक रिज़ॉल्यूशन का समर्थन करता है, जो विविध वास्तविक छवि स्थितियों के साथ बेहतर ढंग से अनुकूलित हो सकता है। इस मॉडल ने शुरू से शुरू करके शुद्ध दृश्य और पाठ दृश्य के दोहरे संचालन के संयोजन के माध्यम से अपनी व्यापकता में महत्वपूर्ण सुधार किया है, विशेष रूप से तालिकाओं, ग्राफिक्स, सूत्रों, दस्तावेजों आदि जैसी असामान्य संरचित छवियों के साथ निपटने में अच्छा प्रदर्शन किया है।
डेटा के मामले में, ही लैब टीम ने बड़े आकार और शुद्धता से चुने गए प्रशिक्षण सेट का निर्माण किया। उन्होंने स्वयं वेबपृष्ठ डेटा को फिर से लिखा और स्वयं विकसित डॉट्स.ओसीआर उपकरण का उपयोग पीडीएफ दस्तावेजों के साथ किया, जिससे छवि-पाठ जोड़े की गुणवत्ता में महत्वपूर्ण सुधार हुआ, जिससे मॉडल के पारमाणविक समझ क्षमता की ठोस नींव डाली गई।
मूल्यांकन प्रदर्शन, शीर्ष बंद मॉडल के समान
मुख्य अंतरराष्ट्रीय बहुमाध्यम मूल्यांकन सेट पर, डॉट्स.वीएलएम1 का संयुक्त प्रदर्शन ध्यान खींचता है। यह MMMU, MathVision और OCR Reasoning जैसे कई मानक परीक्षणों में जीमीनी 2.5 प्रो और सीड-वीएल1.5 के समान स्तर तक पहुंच गया है। जटिल ग्राफिक तर्क, STEM गणितीय तर्क और लंबे अंत वाले विशिष्ट घटना पहचान जैसे अनुप्रयोगों में, डॉट्स.वीएलएम1 अद्भुत तार्किक तर्क और विश्लेषण क्षमता दिखाता है, जो ओलंपिक गणित जैसे उच्च कठिनाई वाले कार्यों के लिए पूरी तरह से उपयुक्त है।
हालांकि, बहुत जटिल टेक्स्ट तर्क पर एसओटीए बंद मॉडल के साथ अभी भी अंतर है, लेकिन इसकी सामान्य गणितीय तर्क और कोड क्षमता वर्तमान मुख्य बड़े भाषा मॉडल के समान हो गई है।
ही लैब टीम ने कहा कि वे आगे भी मॉडल के आदर्शन करेंगे। उनकी योजना पारमाणविक डेटा के आकार को बढ़ाना और अग्रणी एल्गोरिदम, जैसे सुधारित शिक्षा को शामिल करना है, जिससे तार्किक व्यापकता में आगे की बढ़त होगी। डॉट्स.वीएलएम1 के खुले स्रोत के माध्यम से, शियोहोंगशू बहुमाध्यम बड़े मॉडल पारिस्थितिकी तंत्र में नई ऊर्जा प्रदान करने के लिए लगे हुए हैं और उद्योग के विकास में सहायता कर रहे हैं।