Impプロジェクトは、一連の強力なマルチモーダル小型言語モデル(MSLM)を提供することを目指しています。私たちのimp-v1-3bは、30億パラメーターを持つ強力なMSLMであり、小型ながらも強力なSLMであるPhi-2(27億パラメーター)と強力なビジュアルエンコーダーであるSigLIP(4億パラメーター)を基盤とし、LLaVA-v1.5トレーニングセットでトレーニングされています。imp-v1-3bは、様々なマルチモーダルベンチマークテストにおいて、同規模の競合モデルを明らかに上回り、いくつかのマルチモーダルベンチマークテストでは、強力なLLaVA-7Bモデルをわずかに上回る性能を示しています。