Aquila-VL-2Bモデルは、LLava-one-visionフレームワークに基づいてトレーニングされたビジョン言語モデル(VLM)です。言語モデル(LLM)としてQwen2.5-1.5B-instructモデルを採用し、ビジョントランスフォーマーとしてsiglip-so400m-patch14-384を使用しています。約4000万の画像テキストペアを含む、独自構築のInfinity-MMデータセットでトレーニングされました。このデータセットは、インターネットから収集されたオープンソースデータと、オープンソースVLMモデルで生成された合成指示データの組み合わせです。Aquila-VL-2Bモデルのオープンソース化は、特に画像とテキストの組み合わせ処理におけるマルチモーダル性能の向上を目指しています。