LLaVA est un nouveau grand modèle multimodal entraîné de bout en bout, combinant un encodeur visuel et Vicuna, ce qui lui confère des capacités de conversation impressionnantes, imitant l'esprit du GPT-4 multimodal, et atteignant une nouvelle précision record pour les Q&R scientifiques. Les cas d'utilisation de LLaVA incluent les conversations multimodales pour les applications grand public et le raisonnement multimodal dans le domaine scientifique. Les données, le code et les points de contrôle de LLaVA sont réservés à des fins de recherche et sont soumis aux licences CLIP, LLaMA, Vicuna et GPT-4.