विस्कॉन्सिन विश्वविद्यालय, मैडिसन, माइक्रोसॉफ्ट रिसर्च और कोलंबिया विश्वविद्यालय के शोधकर्ताओं ने मल्टीमॉडल बड़े मॉडल LLaVA-1.5 को ओपन-सोर्स किया है, जो 11 बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन दिखाता है, जिसमें दृश्य प्रश्न-उत्तर और छवि कैप्शन कार्य शामिल हैं। LLaVA-1.5 को केवल 8 A100 GPU की आवश्यकता होती है और यह 1 दिन के भीतर प्रशिक्षण पूरा करता है, प्रदर्शन में उल्लेखनीय है। शोधकर्ताओं ने आउटपुट फ़ॉर्मेट संकेतों को समायोजित करने की प्रक्रिया में जोड़ने का एक तरीका प्रस्तुत किया, जिससे मॉडल विभिन्न कार्यों के लिए बेहतर अनुकूलित हो सके। LLaVA-1.5 की मजबूत मल्टीमॉडल समझने की क्षमता GPT-4V की स्थिति को चुनौती देती है।
GPT-4V के साथ कड़ा मुकाबला! झेजियांग यूनिवर्सिटी के पूर्व छात्र ने ओपन-सोर्स मल्टी-मॉडल बड़ा मॉडल LLaVA-1.5 बनाया, 13 अरब पैरामीटर 8 A100 GPUs पर एक दिन में प्रशिक्षित

新智元
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।