El proyecto Imp busca ofrecer una serie de potentes modelos de lenguaje multimodal pequeños (MSLM). Nuestro imp-v1-3b es un potente MSLM con 3 mil millones de parámetros, construido sobre un pequeño pero potente SLM Phi-2 (2.7 mil millones) y un potente codificador visual SigLIP (400 millones), y entrenado en el conjunto de datos LLaVA-v1.5. Imp-v1-3b supera significativamente a sus competidores de tamaño similar en varias pruebas de referencia multimodales, incluso mostrando un rendimiento ligeramente superior al del potente modelo LLaVA-7B en diversas pruebas de referencia multimodales.