Investigadores de la Universidad de Zhejiang, Microsoft Research y la Universidad de Columbia han desarrollado conjuntamente un nuevo sistema de IA multimodal, LLaVA-1.5, que ha batido récords en 11 pruebas de referencia. En cuanto a la capacidad de comprensión multimodal, supera a GPT-4V y se posiciona como un competidor directo.
LLaVA-1.5 ha logrado este avance utilizando una arquitectura de sistema sencilla y conjuntos de datos públicos, demostrando que los modelos de código abierto, con un diseño adecuado, también pueden alcanzar una gran potencia. Esto supone una inspiración para el desarrollo de la IA.
El código abierto de LLaVA-1.5 llena un vacío en el campo de la IA multimodal y es considerado por la industria como un nuevo contendiente formidable que se enfrenta directamente a GPT-4.