Video-LLaVA est un modèle conçu pour apprendre une représentation visuelle conjointe, entraîné par alignement de projections préalables. Il permet d'aligner les représentations vidéo et image, améliorant ainsi la compréhension visuelle. Ce modèle offre une vitesse d'apprentissage et d'inférence élevée, le rendant adapté au traitement vidéo et aux tâches de vision par ordinateur.