Investigadores de la Universidad de Wisconsin-Madison, Microsoft Research y la Universidad de Columbia han lanzado el modelo multimodal de lenguaje a gran escala LLaVA-1.5 de código abierto. Este modelo ha demostrado un rendimiento excepcional en 11 pruebas de referencia, incluyendo preguntas y respuestas visuales y tareas de subtitulado de imágenes. LLaVA-1.5 solo necesita 8 GPUs A100 y se entrena en un día, logrando un rendimiento notable. Los investigadores propusieron un método para agregar indicaciones de formato de salida durante el ajuste fino, permitiendo que el modelo se adapte mejor a diferentes tareas. La potente capacidad de comprensión multimodal de LLaVA-1.5 desafía la posición de GPT-4V.
¡Enfrentándose a GPT-4V! LLaVA-1.5, un modelo multimodal de código abierto desarrollado por un exalumno de la Universidad de Zhejiang, con 13 mil millones de parámetros, entrenado en 8 A100 en un día.

新智元
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.