Mini-Gemini ist ein multimodales visuell-sprachliches Modell, das eine Reihe dichter und MoE-großer Sprachmodelle von 2B bis 34B unterstützt und gleichzeitig über Fähigkeiten zum Bildverstehen, -schlussfolgern und -generieren verfügt. Es basiert auf LLaVA und nutzt einen dualen visuellen Encoder, der niedrigauflösende visuelle Einbettungen und hochauflösende Kandidatenregionen bereitstellt. Mithilfe von Patch-Informationsmining wird eine Patch-Ebene-Extraktion zwischen hochauflösenden Regionen und niedrigauflösenden visuellen Abfragen durchgeführt. Text und Bilder werden zur Aufgabenlösung im Bereich Verständnis und Generierung fusioniert. Es unterstützt mehrere Benchmarks für das visuelle Verständnis, darunter COCO, GQA, OCR-VQA und VisualGenome.