Xiaomi presenta el último modelo de múltimodal abierto Xiaomi MiMo-VL-7B-2508

AIbase基地

Publicado elNoticias de IA · 3 minutos de lectura · Aug 9, 2025

El equipo de modelos grandes de Xiaomi anunció el lanzamiento abierto de su nueva generación de modelo multimoodal Xiaomi MiMo-VL-7B-2508, que incluye dos versiones: RL y SFT.

Los datos oficiales muestran que la nueva versión del modelo rompió récords en cuatro capacidades clave: razonamiento académico, comprensión de documentos, localización de interfaces gráficas y comprensión de videos. Por primera vez, el benchmark MMMU superó los 70 puntos, ChartQA subió a 94,4, ScreenSpot-v2 alcanzó 92,5 y VideoMME mejoró a 70,8.

微信截图_20250809102003.png

Esta iteración mejoró la estabilidad del aprendizaje por refuerzo y el proceso de ajuste supervisado, lo que hizo que la puntuación del modelo en VLM Arena interna aumentara de 1093,9 a 1131,2.

Destaca especialmente que los usuarios pueden cambiar libremente entre los modos "pensar" y "no pensar" al hacer preguntas mediante la instrucción "/no_think": el primer modo muestra todo el proceso de razonamiento, logrando un éxito del 100%, mientras que el segundo modo genera directamente la respuesta, siendo más rápido y con un éxito del 99,84%.

MiMo-VL-7B-RL-2508

Se recomienda que los usuarios experimenten este modelo en la mayoría de los casos.
Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-RL-2508

MiMo-VL-7B-SFT-2508

Los usuarios pueden realizar SFT y RL según sus necesidades reales basándose en este modelo. En comparación con la versión anterior de SFT, este modelo tiene una mayor estabilidad en RL.
Dirección de código abierto: https://huggingface.co/XiaomiMiMo/MiMo-VL-7B-SFT-2508

Xiaomi Modelomultimodalgrande XiaomiMiMo-VL-7B-2508 NuevotérminodeIA

Este artículo proviene de AIbase Daily

¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.

—— Creado por el grupo AIbase Daily

Noticias de IA relacionadas recomendadas

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

IBM lanza Granite 4.0 Nano, modelos de IA de 3.5M a 1.5B parámetros. Funcionan localmente en laptops o navegadores, sin nube, permitiendo desarrollo en hardware común y dispositivos edge.....

Oct 29, 2025

180

$Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre$

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

El motor publicitario lanzó un modelo IA propio para gestionar anuncios, usando un marco integral y estrategias de IA contra IA. Este modelo multimodal acelera la revisión, procesando el 90% del material en 10 minutos, superando ampliamente la velocidad manual.....

Oct 27, 2025

120

El modelo PaddleOCR-VL de Baidu lidera la lista global de OCR y mantiene el primer lugar en la lista de tendencias de Huggingface durante cinco días consecutivos

El 16 de octubre, Baidu PaddlePaddle lanzó el modelo de visión y lenguaje PaddleOCR-VL, obteniendo 92.56 puntos en la evaluación oficial OmniDocBench V1.5 con 0.9 mil millones de parámetros, superando modelos principales como DeepSeek-OCR y liderando así la lista global de OCR. Hasta el 21 de octubre, los tres primeros lugares en la lista de tendencias de Huggingface eran todos modelos OCR, siendo Baidu Paddle el primero.

Oct 24, 2025

140

iFLYTEK anuncia el 6 de noviembre: el modelo de Xinghuo se actualiza completamente

El 6 de noviembre, iFlytek celebrará en Hefei su Foro Global 1024, mostrando mejoras en el modelo Spark, capacidades base e interacción multimodal. La agenda en línea inició el 24 de octubre, atrayendo gran interés de desarrolladores.....

Oct 22, 2025

Diario de IA: OpenAI lanza el navegador Atlas; Qwen3-VL de Tongyi agrega dos tamaños de modelo de 2B y 32B; Baidu lanza un gran modelo de refuerzo de evidencia cíclica

OpenAI presenta el navegador ChatGPT Atlas, que logra una transformación estratégica mediante la integración de un asistente de IA, desafiando directamente a Chrome. Este navegador integra el modo de operación de Agente, ofreciendo funciones de interacción inteligente en cada pestaña, mostrando ambiciones para expandirse desde una herramienta de chat hacia una plataforma de Internet.

Oct 22, 2025

100

Qwen3-VL de Alibaba Agrega Dos Tamaños de Modelo 2B y 32B, Funciona Fácilmente en Teléfonos Móviles

Ali lanza modelos Qwen3-VL de 2B y 32B para escenarios visual-lingüísticos, desde móviles hasta alto rendimiento. Instruct es rápido y estable; Thinking se enfoca en razonamiento. Mejoran desarrollo y flexibilidad.....

Oct 22, 2025

110

El plan de despidos de Amazon se revela: los documentos internos muestran que los robots podrían reemplazar más de 600.000 puestos de trabajo para 2033

Amazon planea reemplazar más de 600,000 puestos en EE.UU. con robots para 2033, evitando contratar 500,000 personas, buscando mayor eficiencia económica pese al crecimiento de ventas.....

Oct 22, 2025

¡Otra gran sorpresa de Tongyi Qianwen! La familia Qwen3-VL agrega modelos de 2B y 32B, la matriz de código abierto se actualiza por completo

Alibaba Cloud lanza dos nuevos modelos densos Qwen3-VL (2B y 32B), completando 24 modelos open-source en la serie. Incluye 4 modelos densos y 2 Mixtral-of-Experts, fortaleciendo el ecosistema y competitividad.....

Oct 22, 2025

140

¡Superar el cuello de botella! La Universidad de Ciencia y Tecnología de Shanghai colabora con el Laboratorio de IA de Shanghai para mejorar la capacidad de reflexión de los modelos grandes multimodales

Shanghai Jiao Tong University y Shanghai AI Lab lanzan MM-HELIX para dotar a modelos multimodales de capacidad reflexiva, simulando el razonamiento humano en cadenas largas y mejorando su flexibilidad cognitiva.....

Oct 21, 2025

140

Google lanzará el modelo Gemini 3.0 en diciembre

CEO de Google anuncia Gemini 3.0 en Dreamforce 2025. Nueva IA con capacidad de decisión autónoma revolucionaria, mejora eficiencia de servicios y experiencia de usuario para vida cotidiana y negocios.....

Oct 20, 2025

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

AI Models Finder

LLM Leaderboard

Model Providers

Compare LLMs

LLM Cost Calculator

LLM Arena

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

GEO Brand Visibility

AI Brand Monitoring Tool

AI Search Visibility Checker

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Services​

AI Model Compatibility Checker

AI Deployment Calculator

Xiaomi presenta el último modelo de múltimodal abierto Xiaomi MiMo-VL-7B-2508

AIbase基地

Este artículo proviene de AIbase Daily

Noticias de IA relacionadas recomendadas

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

El modelo PaddleOCR-VL de Baidu lidera la lista global de OCR y mantiene el primer lugar en la lista de tendencias de Huggingface durante cinco días consecutivos

iFLYTEK anuncia el 6 de noviembre: el modelo de Xinghuo se actualiza completamente

Diario de IA: OpenAI lanza el navegador Atlas; Qwen3-VL de Tongyi agrega dos tamaños de modelo de 2B y 32B; Baidu lanza un gran modelo de refuerzo de evidencia cíclica

Qwen3-VL de Alibaba Agrega Dos Tamaños de Modelo 2B y 32B, Funciona Fácilmente en Teléfonos Móviles

El plan de despidos de Amazon se revela: los documentos internos muestran que los robots podrían reemplazar más de 600.000 puestos de trabajo para 2033

¡Otra gran sorpresa de Tongyi Qianwen! La familia Qwen3-VL agrega modelos de 2B y 32B, la matriz de código abierto se actualiza por completo

¡Superar el cuello de botella! La Universidad de Ciencia y Tecnología de Shanghai colabora con el Laboratorio de IA de Shanghai para mejorar la capacidad de reflexión de los modelos grandes multimodales

Google lanzará el modelo Gemini 3.0 en diciembre

Noticias de IA relacionadas recomendadas

IBM presenta el modelo Granite 4.0 Nano, rompiendo los límites de rendimiento de los modelos de inteligencia artificial pequeños

Engine de grandes cantidades saca la espada de gobernanza de IA: modelo multimodal de gran tamaño propio revisa el 90% de los anuncios en 10 minutos, intercepta 840.000 materiales infractores en un trimestre

El modelo PaddleOCR-VL de Baidu lidera la lista global de OCR y mantiene el primer lugar en la lista de tendencias de Huggingface durante cinco días consecutivos

iFLYTEK anuncia el 6 de noviembre: el modelo de Xinghuo se actualiza completamente

Diario de IA: OpenAI lanza el navegador Atlas; Qwen3-VL de Tongyi agrega dos tamaños de modelo de 2B y 32B; Baidu lanza un gran modelo de refuerzo de evidencia cíclica

Qwen3-VL de Alibaba Agrega Dos Tamaños de Modelo 2B y 32B, Funciona Fácilmente en Teléfonos Móviles

El plan de despidos de Amazon se revela: los documentos internos muestran que los robots podrían reemplazar más de 600.000 puestos de trabajo para 2033

¡Otra gran sorpresa de Tongyi Qianwen! La familia Qwen3-VL agrega modelos de 2B y 32B, la matriz de código abierto se actualiza por completo

¡Superar el cuello de botella! La Universidad de Ciencia y Tecnología de Shanghai colabora con el Laboratorio de IA de Shanghai para mejorar la capacidad de reflexión de los modelos grandes multimodales

Google lanzará el modelo Gemini 3.0 en diciembre

GEO Services