अली क्लाउड ने विज़ुअल लैंग्वेज मॉडल Qwen-VL को ओपन-सोर्स किया है, यह अगस्त में ओपन-सोर्स किए गए सामान्य मॉडल Qwen-7B और संवाद मॉडल Qwen-7B-Chat के बाद एक और ओपन-सोर्स बड़े मॉडल है। Qwen-VL चीनी और अंग्रेजी दोनों का समर्थन करता है, और यह ज्ञान प्रश्न-उत्तर, छवि शीर्षक निर्माण, छवि प्रश्न-उत्तर जैसे कई अनुप्रयोगों को सक्षम बनाता है। अन्य मॉडलों की तुलना में, Qwen-VL चीनी ओपन-डोमेन लोकेशन कर सकता है, और छवि में सटीक रूप से डिटेक्शन बॉक्स को चिह्नित कर सकता है। Qwen-VL Qwen-7B पर आधारित है, जो विज़ुअल एन्कोडर को शामिल करता है और छवि इनपुट का समर्थन करता है। Qwen-VL ने कई विज़ुअल लैंग्वेज कार्यों के परीक्षण में समान मॉडलों के बीच सबसे अच्छे परिणाम प्राप्त किए हैं। Qwen-VL को ModelScope जैसे प्लेटफार्मों पर ओपन-सोर्स किया गया है। मल्टी-मॉडल बड़े मॉडल के विकास की एक महत्वपूर्ण दिशा है, लेकिन अभी भी कुछ तकनीकी चुनौतियों का सामना कर रही है।
कॉमन सेंसेस लर्निंग अब चित्र देख सकता है! अलीबाबा क्लाउड ने विज़ुअल लैंग्वेज मॉडल Qwen-VL को ओपन-सोर्स किया, जो चित्र और टेक्स्ट दोनों मोड इनपुट का समर्थन करता है

AI前线
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।