Des chercheurs de l'Université de Zhejiang, de Microsoft Research et de l'Université de Columbia ont conjointement développé un nouveau système d'IA multimodale, LLaVA-1.5, qui bat des records sur 11 tests de référence. Ses capacités de compréhension multimodale surpassent celles de GPT-4V, lui permettant de rivaliser directement avec ce dernier.
LLaVA-1.5 a réalisé ces progrès grâce à une architecture système simple et à des ensembles de données publiques. Cela démontre que les modèles open source, grâce à une conception appropriée, peuvent atteindre des performances exceptionnelles, ouvrant de nouvelles perspectives pour le développement de l'IA.
La publication en open source de LLaVA-1.5 comble une lacune importante dans le domaine de l'IA multimodale. Il est considéré par l'industrie comme un sérieux concurrent de GPT-4, un véritable challenger.