El equipo de modelos grandes de Xiaomi anunció el lanzamiento abierto de su nueva generación de modelo multimoodal Xiaomi MiMo-VL-7B-2508, que incluye dos versiones: RL y SFT.
Los datos oficiales muestran que la nueva versión del modelo rompió récords en cuatro capacidades clave: razonamiento académico, comprensión de documentos, localización de interfaces gráficas y comprensión de videos. Por primera vez, el benchmark MMMU superó los 70 puntos, ChartQA subió a 94,4, ScreenSpot-v2 alcanzó 92,5 y VideoMME mejoró a 70,8.
Esta iteración mejoró la estabilidad del aprendizaje por refuerzo y el proceso de ajuste supervisado, lo que hizo que la puntuación del modelo en VLM Arena interna aumentara de 1093,9 a 1131,2.
Destaca especialmente que los usuarios pueden cambiar libremente entre los modos "pensar" y "no pensar" al hacer preguntas mediante la instrucción "/no_think": el primer modo muestra todo el proceso de razonamiento, logrando un éxito del 100%, mientras que el segundo modo genera directamente la respuesta, siendo más rápido y con un éxito del 99,84%.
MiMo-VL-7B-RL-2508
Se recomienda que los usuarios experimenten este modelo en la mayoría de los casos.
Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508
MiMo-VL-7B-SFT-2508
Los usuarios pueden realizar SFT y RL según sus necesidades reales basándose en este modelo. En comparación con la versión anterior de SFT, este modelo tiene una mayor estabilidad en RL.
Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508