वीकोडर एक एडेप्टर है जो सहायक संवेदी मोड को नियंत्रण इनपुट के रूप में उपयोग करके ऑब्जेक्ट-स्तरीय दृश्य कार्यों पर बहु-मोडल बड़े भाषा मॉडल के प्रदर्शन को बेहतर बनाता है। वीकोडर LLaVA, LLaVA-1.5 पर आधारित है। वीकोडर LLaVA-1.5 के मापदंडों को ठीक नहीं करता है, इसलिए सामान्य प्रश्नोत्तर बेंचमार्क में इसका प्रदर्शन LLaVA-1.5 के समान ही है। वीकोडर का COST डेटासेट पर बेंचमार्क किया गया है, और यह अर्थपूर्ण, उदाहरण और पैनोरमिक विभाजन कार्यों पर अच्छा प्रदर्शन करता है। लेखकों ने मॉडल के पता लगाने के परिणाम और पूर्व-प्रशिक्षित मॉडल भी जारी किए हैं।