Aquila-VL-2B est un modèle de langage visuel (VLM) entraîné sur la base du framework Llava-one-vision. Il utilise le modèle Qwen2.5-1.5B-instruct comme modèle de langage (LLM) et siglip-so400m-patch14-384 comme tour visuelle. Ce modèle a été entraîné sur le jeu de données Infinity-MM auto-construit, comprenant environ 40 millions de paires image-texte. Ce jeu de données combine des données open source collectées sur internet et des données d'instructions synthétiques générées à l'aide de modèles VLM open source. La mise à disposition en open source d'Aquila-VL-2B vise à stimuler le développement des performances multimodales, notamment en ce qui concerne le traitement combiné d'images et de texte.