Mini-Geminiは、2Bから34Bパラメーターの様々なサイズを持つ、密集型およびMoE構造の大規模言語モデルです。画像の理解、推論、生成能力を備えたマルチモーダル視覚言語モデルです。LLaVAを基盤とし、2つの視覚エンコーダを用いて低解像度と高解像度の視覚埋め込みを生成します。高解像度領域と低解像度視覚クエリ間でパッチレベルの情報マイニングを行い、テキストと画像を融合することで、理解と生成タスクを実行します。COCO、GQA、OCR-VQA、VisualGenomeなど、複数の視覚理解ベンチマークに対応しています。