O modelo Aquila-VL-2B é um modelo de linguagem visual (VLM) treinado na estrutura LLava-one-vision, utilizando o modelo Qwen2.5-1.5B-instruct como modelo de linguagem (LLM) e siglip-so400m-patch14-384 como torre visual. O modelo foi treinado no conjunto de dados Infinity-MM de construção própria, contendo aproximadamente 40 milhões de pares imagem-texto. Este conjunto de dados combina dados abertos coletados da internet e dados de instruções sintéticas gerados usando modelos VLM abertos. A disponibilização do código-fonte do modelo Aquila-VL-2B visa impulsionar o desenvolvimento de desempenho multimodal, especialmente no processamento combinado de imagem e texto.