Recientemente, el modelo multimodal MiMo-VL desarrollado por Xiaomi ha tomado el relevo a MiMo-7B y ha demostrado un rendimiento impresionante en varios campos. Este modelo supera significativamente a modelos multimodales de referencia como Qwen2.5-VL-7B en tareas como preguntas y respuestas generales y razonamiento sobre imágenes, videos y lenguaje, y su rendimiento en la tarea de GUI Grounding es comparable al de modelos especializados, preparando así el escenario para la era de los agentes.
El MiMo-VL-7B ha logrado resultados destacados en tareas de razonamiento multimodal, a pesar de tener solo 7 mil millones de parámetros, superando claramente a modelos como Alibaba Qwen-2.5-VL-72B y QVQ-72B-Preview, que tienen 10 veces más parámetros, y también superando al modelo cerrado GPT-4o. En las evaluaciones internas del escenario de competencia entre grandes modelos para medir la experiencia del usuario real, el MiMo-VL-7B superó a GPT-4o y se convirtió en un líder entre los modelos open source. En aplicaciones prácticas, este modelo muestra un rendimiento excepcional en tareas complejas de inferencia y preguntas-respuestas con imágenes, e incluso en operaciones de GUI de hasta más de 10 pasos, ayudando a los usuarios a agregar productos como el Xiaomi SU7 a sus listas de deseos.
La capacidad perceptiva visual integral del MiMo-VL-7B se debe a datos de preentrenamiento de alta calidad y un algoritmo innovador de aprendizaje por refuerzo mixto en línea (MORL). Durante el proceso de preentrenamiento en varias etapas, Xiaomi recolectó, limpió y combinó grandes cantidades de datos multimodales de alta calidad, incluidos pares de imagen-texto, video-texto y secuencias de operación GUI, totalizando 2.4 billones de tokens, ajustando progresivamente las proporciones de diferentes tipos de datos para fortalecer la capacidad de razonamiento multimodal a largo plazo. El aprendizaje por refuerzo mixto en línea combina señales de retroalimentación como la inferencia textual, la percepción y razonamiento multimodal, y el RLHF, estabilizando y acelerando el entrenamiento mediante algoritmos de aprendizaje por refuerzo en línea, mejorando de manera integral el rendimiento de inferencia y percepción del modelo y la experiencia del usuario.
Vinculo relacionado: https://huggingface.co/XiaomiMiMo.