LLaVA-OneVision एक बहुविधा बड़ा भाषा मॉडल (LMMs) है जिसे बाइटडांस और कई विश्वविद्यालयों के सहयोग से विकसित किया गया है। यह एकल छवि, बहु-छवि और वीडियो परिदृश्यों में खुले बड़े बहुविधा मॉडल के प्रदर्शन की सीमाओं को आगे बढ़ाता है। इस मॉडल की संरचना विभिन्न modalities/परिदृश्यों के बीच शक्तिशाली स्थानांतरण अधिगम की अनुमति देती है, जिससे नई व्यापक क्षमताएँ प्रदर्शित होती हैं, खासकर वीडियो समझ और क्रॉस-दृश्य क्षमताओं के संदर्भ में, जिन्हें इमेज-टू-वीडियो कार्य रूपांतरण के माध्यम से प्रदर्शित किया गया है।