El equipo de modelos grandes de Xiaomi anunció el lanzamiento abierto de su nueva generación de modelo multimoodal Xiaomi MiMo-VL-7B-2508, que incluye dos versiones: RL y SFT.

Los datos oficiales muestran que la nueva versión del modelo rompió récords en cuatro capacidades clave: razonamiento académico, comprensión de documentos, localización de interfaces gráficas y comprensión de videos. Por primera vez, el benchmark MMMU superó los 70 puntos, ChartQA subió a 94,4, ScreenSpot-v2 alcanzó 92,5 y VideoMME mejoró a 70,8.

微信截图_20250809102003.png

Esta iteración mejoró la estabilidad del aprendizaje por refuerzo y el proceso de ajuste supervisado, lo que hizo que la puntuación del modelo en VLM Arena interna aumentara de 1093,9 a 1131,2.

Destaca especialmente que los usuarios pueden cambiar libremente entre los modos "pensar" y "no pensar" al hacer preguntas mediante la instrucción "/no_think": el primer modo muestra todo el proceso de razonamiento, logrando un éxito del 100%, mientras que el segundo modo genera directamente la respuesta, siendo más rápido y con un éxito del 99,84%.

  • MiMo-VL-7B-RL-2508

    • Se recomienda que los usuarios experimenten este modelo en la mayoría de los casos.

    • Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

  • MiMo-VL-7B-SFT-2508

    • Los usuarios pueden realizar SFT y RL según sus necesidades reales basándose en este modelo. En comparación con la versión anterior de SFT, este modelo tiene una mayor estabilidad en RL.

    • Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508