11 अगस्त को, जिपू टेक्नोलॉजी ने अपने नए दृश्य समझ मॉडल - GLM-4.5V का आधिकारिक रूप से उद्घाटन किया। इस मॉडल को उनके नए पाठ मॉडल GLM-4.5-Air पर तैयार किया गया है, जो पिछले पीढ़ी के दृश्य तर्क मॉडल GLM-4.1V-Thinking के तकनीकी रास्ते को ले गया है, जिसमें आश्चर्यजनक 106 बिलियन पैरामीटर और 12 बिलियन एक्टिवेशन पैरामीटर हैं। ध्यान देने योग्य बात यह है कि GLM-4.5V में "सोचने का मोड" बटन का फीचर भी जोड़ा गया है, जिसके द्वारा उपयोगकर्ता इस मोड के उपयोग के लिए चुन सकते हैं जिससे कार्य प्रक्रिया में अधिक लचीलापन होता है।

इस मॉडल की दृश्य क्षमता ध्यान खींचती है, जो मैकडॉनल्ड्स और केंटकी फास्ट फूड के फ्राइड चिकन के बीच अंतर आसानी से कर सकता है, बाहरी रंग और गुणवत्ता के विभिन्न पहलुओं पर गहरा विश्लेषण कर सकता है। इसके अलावा, GLM-4.5V छवि ज्ञान के चुनौती में भाग ले सकता है, यहां तक कि प्रतियोगिता में शानदार प्रदर्शन करता है, 99% मानव प्रतियोगियों को पार करता है और 66वां स्थान प्राप्त करता है। जिपू ने इस मॉडल के 42 बेंचमार्क परीक्षण में अद्भुत प्रदर्शन दिखाया, जिसमें अधिकांश परीक्षणों में अन्य समान आकार के मॉडलों की तुलना में अधिक अंक हासिल किए गए।

अब, GLM-4.5V ओपन सोर्स प्लेटफॉर्म जैसे Hugging Face, Moba और GitHub पर उपलब्ध है, जहां उपयोगकर्ता इसे मुफ्त में डाउनलोड कर सकते हैं और FP8 क्वांटाइजेशन संस्करण भी प्रदान किया गया है। इस मॉडल का बेहतर अनुभव प्राप्त करने के लिए, जिपू ने एक डेस्कटॉप सहायक एप्लिकेशन लॉन्च किया है, जो वास्तविक समय में स्क्रीन शॉट और रिकॉर्डिंग का समर्थन करता है, जो उपयोगकर्ताओं को विभिन्न दृश्य तर्क कार्यों, जैसे कोड सहायता और दस्तावेज अनुमान के साथ मदद करता है।

वास्तविक परीक्षण में, GLM-4.5V अद्भुत क्षमता दिखाता है, जो अपलोड की गई छवि के आधार पर स्थिति के अनुमान लगा सकता है, हालांकि अक्सर थोड़ी त्रुटि हो सकती है, लेकिन तर्क प्रक्रिया अभी भी बहुत विस्तृत है। वेब सामग्री के साथ निपटने में, यह छवि कैप्चर के माध्यम से अत्यधिक समानता वाले पृष्ठ बना सकता है, जिसके कारण बहुत मजबूत पुनर्निर्माण क्षमता होती है।

GLM-4.5V दृश्य समझ के क्षेत्र में अच्छा प्रदर्शन करता है, इसके अलावा Agent अनुप्रयोग स्थितियों में भी बड़ा संभावना दिखाता है। इस तकनीक के विकास के साथ, हम भविष्य में इसके अनुप्रयोगों में लोगों के जीवन में अधिक सुविधा लाने की उम्मीद कर सकते हैं।