आज जहाँ कृत्रिम बुद्धि के क्षेत्र में प्रतिस्पर्धा बढ़ती जा रही है, टेक्स्टला की Seed टीम ने 13 मई को अपने सबसे नवीन बहुमोड़ विशालकाय मॉडल Seed1.5-VL को आधिकारिक रूप से जारी किया, इससे आगे की दिशा में प्रगति कराने के लिए। यह मॉडल अधिक से अधिक 3 ट्रिलियन tokens के बहुमोड़ डेटा से पूर्व प्रशिक्षित है और शक्तिशाली बहुमोड़ समझ और तर्क करने की क्षमता प्रदान करता है, जिसके साथ-साथ उपयोग के समय तर्कना लागत को भी काफी कम कर दिया है।
गूगल के हाल ही में जारी किए गए Gemini2.5Pro के साथ तुलना करते हुए, Seed1.5-VL की तथ्य प्रदर्शन गुणवत्ता में अनुरूपता दिखाई देती है। गूगल का Gemini2.5Pro छवियों, वीडियो, ध्वनि और कोड को एक साथ समझने का समर्थन करता है और बेचर्क गैजेट-4.0 से अधिक प्रदर्शन पर पहुंचता है। टेक्स्टला की Seed टीम ने कहा है कि यहाँ तक कि Seed1.5-VL की खिंचाव पैरामीटर 20 अरब है, फिर भी, 60 प्रमुख बजट परीक्षण में Seed1.5-VL ने 38 परीक्षणों में सर्वश्रेष्ठ नवीनतम प्रदर्शन (SOTA) प्राप्त किया है, जिसमें 19 वीडियो परीक्षणों में 14 परीक्षणों और 7 GUI (ग्राफिकल यूजर इंटरफेस) प्रॉक्सी कार्यों में 3 परीक्षणों में सर्वश्रेष्ठ प्रदर्शन था।
क्षमता के पहलुओं में, Seed1.5-VL ने शानदार दृश्य तर्क, छवि प्रश्न-उत्तर और वीडियो समझ की क्षमताओं को प्रदर्शित किया है। इंटेलिजेंट प्रोग्राम के संबंधित कार्यों में, यह मॉडल 7 GUI कार्यों में SOTA प्रदर्शन प्राप्त किया है। इसके अलावा, Seed1.5-VL को इंजीनियरिंग में सरलीकरण करके गणना की आवश्यकता को कम किया गया है, जिससे इसे इंटरैक्टिव अनुप्रयोगों के लिए अधिक उपयुक्त बना दिया गया है। यह PC और मोबाइल जैसे विभिन्न प्लेटफार्मों पर जटिल कार्यों को पूरा करने में सक्षम है, जैसे जानकारी एकत्र करना और प्रोसेस करना।
हालांकि, Seed1.5-VL के सामने कुछ चुनौतियां भी हैं। विशेष रूप से विस्तृत दृश्य समझ की क्षमता में, मॉडल के पास उद्देश्यों की गिनती, छवि के अंतर को पहचानने और जटिल अंतरिक्षीय संबंधों की व्याख्या करने में कुछ मुश्किलें आई हैं, विशेष रूप से अनियमित व्यवस्था, समान रंग या आंशिक छुपाव के साथ सामना करने पर। इसके अलावा, मॉडल के पास उच्च-स्तरीय तर्क कार्यों में कभी-कभी बिना आधार के अनुमान या अधूरे प्रतिक्रियाएं होती हैं, जो इसकी इन कार्यों में सुधार की आवश्यकता को संकेत देती है।
इससे पहले भी, Seed1.5-VL का जारी होना टेक्स्टला के बहुमोड़ तकनीक पर निरंतर प्रगति का सूचक है। इस मॉडल को वुल्कान इंजीन में API के रूप में उपलब्ध कराया गया है, जिससे उपयोगकर्ताओं को इस नई प्रौद्योगिकी का सीधा अनुभव करने का मौका मिल रहा है।