Des chercheurs de l'Université du Wisconsin-Madison, de Microsoft Research et de l'Université de Columbia ont publié en open source LLaVA-1.5, un grand modèle multimodal qui a démontré des performances exceptionnelles dans 11 benchmarks, notamment la question-réponse visuelle et la génération de légendes d'images. LLaVA-1.5 n'a nécessité que 8 GPU A100 et un jour d'entraînement pour atteindre ces performances remarquables. Les chercheurs ont proposé une méthode consistant à ajouter des invites de format de sortie lors du réglage fin, permettant au modèle de mieux s'adapter à différentes tâches. La puissante capacité de compréhension multimodale de LLaVA-1.5 remet en question la position de GPT-4V.