अली क्लाउड ने विज़ुअल लैंग्वेज मॉडल Qwen-VL को ओपन-सोर्स किया है, यह अगस्त में ओपन-सोर्स किए गए सामान्य मॉडल Qwen-7B और संवाद मॉडल Qwen-7B-Chat के बाद एक और ओपन-सोर्स बड़े मॉडल है। Qwen-VL चीनी और अंग्रेजी दोनों का समर्थन करता है, और यह ज्ञान प्रश्न-उत्तर, छवि शीर्षक निर्माण, छवि प्रश्न-उत्तर जैसे कई अनुप्रयोगों को सक्षम बनाता है। अन्य मॉडलों की तुलना में, Qwen-VL चीनी ओपन-डोमेन लोकेशन कर सकता है, और छवि में सटीक रूप से डिटेक्शन बॉक्स को चिह्नित कर सकता है। Qwen-VL Qwen-7B पर आधारित है, जो विज़ुअल एन्कोडर को शामिल करता है और छवि इनपुट का समर्थन करता है। Qwen-VL ने कई विज़ुअल लैंग्वेज कार्यों के परीक्षण में समान मॉडलों के बीच सबसे अच्छे परिणाम प्राप्त किए हैं। Qwen-VL को ModelScope जैसे प्लेटफार्मों पर ओपन-सोर्स किया गया है। मल्टी-मॉडल बड़े मॉडल के विकास की एक महत्वपूर्ण दिशा है, लेकिन अभी भी कुछ तकनीकी चुनौतियों का सामना कर रही है।