LLaVA-OneVision é um grande modelo multimodal (LMMs) desenvolvido em colaboração pela ByteDance e diversas universidades. Ele impulsiona os limites de desempenho dos modelos abertos de grande porte multimodais em cenários de imagem única, múltiplas imagens e vídeo. O design do modelo permite uma forte transferência de aprendizagem entre diferentes modalidades/cenários, exibindo novas capacidades abrangentes, especialmente em compreensão de vídeo e capacidade multi-cenário, demonstrado através da conversão de tarefas de imagem para vídeo.