Mini-Gemini: Un nuevo marco para VLMs

Investigadores de la Universidad China de Hong Kong y SmartMore han presentado un novedoso marco llamado Mini-Gemini, que impulsa el desarrollo de los Modelos de Lenguaje Visual (VLMs) mediante un sistema de doble codificador y una técnica de extracción de información de parches.

Mini-Gemini ha demostrado un rendimiento excepcional en múltiples pruebas de referencia de cero-disparo, superando a los modelos existentes. El marco utiliza un sistema de doble codificador, la extracción de información de parches y conjuntos de datos de alta calidad para impulsar el avance de los VLMs.

Mini-Gemini ha mostrado eficiencia y precisión en el manejo de tareas visuales y de texto complejas. El alcance y el rendimiento del modelo Gemini se están expandiendo continuamente, mostrando un enorme potencial en el campo de la IA.