Mini-Gemini es un modelo de lenguaje visual multimodal que admite una serie de modelos de lenguaje grandes densos y MoE de 2B a 34B, con capacidades de comprensión, razonamiento y generación de imágenes. Se basa en LLaVA y utiliza un doble codificador visual para proporcionar incrustaciones visuales de baja resolución y regiones de interés de alta resolución. Emplea la extracción de información de parches para realizar una extracción a nivel de parche entre consultas visuales de alta y baja resolución, fusionando texto e imagen para tareas de comprensión y generación. Admite varias pruebas de referencia de comprensión visual, incluyendo COCO, GQA, OCR-VQA y VisualGenome.