Mini-Gemini est un modèle linguistique visuel multimodal proposant une série de modèles linguistiques de grande taille denses et MoE, de 2B à 34B paramètres. Il possède des capacités de compréhension, de raisonnement et de génération d'images. Basé sur LLaVA, il utilise un double encodeur visuel pour fournir des plongements visuels basse résolution et des régions candidates haute résolution. Il exploite l'extraction d'informations par patch pour effectuer une extraction au niveau des patchs entre les requêtes visuelles haute et basse résolution, fusionnant texte et image pour des tâches de compréhension et de génération. Il prend en charge plusieurs benchmarks de compréhension visuelle, notamment COCO, GQA, OCR-VQA et VisualGenome.