LLaVA-OneVision est un grand modèle multi-modal (LMM) développé par ByteDance en collaboration avec plusieurs universités. Il repousse les limites des performances des grands modèles multimodaux ouverts dans les scénarios d'images uniques, multiples et vidéo. La conception du modèle permet un apprentissage par transfert puissant entre différents modes/scénarios, démontrant de nouvelles capacités de synthèse, notamment en matière de compréhension vidéo et de capacité inter-scénarios, comme illustré par la conversion de tâches image-vers-vidéo.