Des chercheurs de l'Université du Wisconsin-Madison, de Microsoft Research et de l'Université de Columbia ont publié en open source LLaVA-1.5, un grand modèle multimodal qui a démontré des performances exceptionnelles dans 11 benchmarks, notamment la question-réponse visuelle et la génération de légendes d'images. LLaVA-1.5 n'a nécessité que 8 GPU A100 et un jour d'entraînement pour atteindre ces performances remarquables. Les chercheurs ont proposé une méthode consistant à ajouter des invites de format de sortie lors du réglage fin, permettant au modèle de mieux s'adapter à différentes tâches. La puissante capacité de compréhension multimodale de LLaVA-1.5 remet en question la position de GPT-4V.
Défi à GPT-4V ! LLaVA-1.5, un modèle multimodal open source de 13 milliards de paramètres développé par un ancien élève de l'Université de Zhejiang, entraîné en une journée sur 8 A100

新智元
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.