Investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia han lanzado el modelo multimodal de lenguaje a gran escala LLaVA-1.5 de código abierto. Este modelo ha demostrado un rendimiento excepcional en 11 pruebas de referencia, incluyendo preguntas y respuestas visuales y tareas de subtitulado de imágenes. LLaVA-1.5 solo necesita 8 GPUs A100 y se entrena en un día, logrando un rendimiento notable. Los investigadores propusieron un método para agregar indicaciones de formato de salida durante el ajuste fino, permitiendo que el modelo se adapte mejor a diferentes tareas. La potente capacidad de comprensión multimodal de LLaVA-1.5 desafía la posición de GPT-4V.