विस्कॉन्सिन विश्वविद्यालय, मैडिसन, माइक्रोसॉफ्ट रिसर्च और कोलंबिया विश्वविद्यालय के शोधकर्ताओं ने मल्टीमॉडल बड़े मॉडल LLaVA-1.5 को ओपन-सोर्स किया है, जो 11 बेंचमार्क परीक्षणों में उत्कृष्ट प्रदर्शन दिखाता है, जिसमें दृश्य प्रश्न-उत्तर और छवि कैप्शन कार्य शामिल हैं। LLaVA-1.5 को केवल 8 A100 GPU की आवश्यकता होती है और यह 1 दिन के भीतर प्रशिक्षण पूरा करता है, प्रदर्शन में उल्लेखनीय है। शोधकर्ताओं ने आउटपुट फ़ॉर्मेट संकेतों को समायोजित करने की प्रक्रिया में जोड़ने का एक तरीका प्रस्तुत किया, जिससे मॉडल विभिन्न कार्यों के लिए बेहतर अनुकूलित हो सके। LLaVA-1.5 की मजबूत मल्टीमॉडल समझने की क्षमता GPT-4V की स्थिति को चुनौती देती है।