La comunidad ModelScope de Moba anunció que el nuevo modelo multimodal MiniCPM-V4.0, desarrollado por Mianbi, está ahora disponible de forma abierta. Con 4 mil millones de parámetros, este modelo obtuvo resultados de vanguardia (SOTA, por sus siglas en inglés) en varios rankings como OpenCompass, OCRBench y MathVista, y logró una operación estable y fluida en dispositivos móviles como teléfonos. Además, el equipo oficial también abrió al público la herramienta de despliegue MiniCPM-V CookBook, ayudando a los desarrolladores a realizar despliegues ligeros y sencillos adaptados a distintas necesidades, escenarios y dispositivos.

El lanzamiento abierto de MiniCPM-V4.0 marca un importante avance en la aplicación de modelos multimodales en dispositivos finales. Como el tamaño de modelo más adecuado para funcionar en teléfonos móviles, MiniCPM-V4.0 logra una operación estable y rápida con 4 mil millones de parámetros, sin presentar sobrecalentamiento ni retrasos incluso después de un uso prolongado. Actualmente, la aplicación iOS que admite el despliegue local de MiniCPM-V4.0 ya está disponible, y los desarrolladores pueden descargarla y usarla desde el CookBook.

微信截图_20250807093312.png

En cuanto al rendimiento, MiniCPM-V4.0 alcanzó un nivel SOTA en la capacidad multimodal de su categoría de 4 mil millones de parámetros. En pruebas de benchmark como OpenCompass, OCRBench, MathVista, MMVet, MMBench V1.1, MMStar, AI2D y HallusionBench, el rendimiento general de MiniCPM-V4.0 es el mejor de su categoría. Especialmente en la evaluación de OpenCompass, el rendimiento general de MiniCPM-V4.0 superó al modelo Qwen2.5-VL3B y al modelo InternVL2.54B, e incluso puede compararse con GPT-4.1-mini y Claude3.5Sonnet. Comparado con el modelo MiniCPM-V2.6 de 8 mil millones de parámetros de la generación anterior, MiniCPM-V4.0 logró un aumento significativo en la capacidad multimodal, reduciendo a la mitad el número de parámetros del modelo.

MiniCPM-V4.0 puede completar tareas como la comprensión en tiempo real de video y la comprensión de imágenes de manera fluida y suave en dispositivos como teléfonos o computadoras, no solo gracias a sus excelentes resultados, sino también debido a su diseño único de estructura del modelo. Este diseño logró el tiempo de primera respuesta más rápido y un menor consumo de memoria gráfica en modelos de tamaño similar. Según las pruebas realizadas en Apple M4Metal, el consumo de memoria gráfica al ejecutar normalmente el modelo MiniCPM-V4.0 es de solo 3,33 GB, lo cual es inferior al de modelos como Qwen2.5-VL3B y Gemma3-4B. En pruebas de comprensión de imágenes, MiniCPM-V4.0 aceleró significativamente el tiempo de primera respuesta utilizando ANE + Metal, y esta ventaja se volvió aún más evidente al aumentar la resolución de las imágenes de entrada.

Además, el equipo de investigación probó la capacidad de concurrencia y el rendimiento de tráfico del modelo utilizando dos tarjetas GPU 4090. Los resultados experimentales muestran que, dentro del rango de recursos de cálculo soportables, a medida que aumenta la cantidad de concurrencia, la ventaja del rendimiento de tráfico del modelo MiniCPM-V4.0 se vuelve más evidente. Por ejemplo, con 256 usuarios concurrentes, el rendimiento de tráfico de MiniCPM-V4.0 alcanzó 13.856 tokens/s, muy por encima de los 7.153 tokens/s de Qwen2.5-VL y los 7.607 tokens/s de Gemma3.

Github: 🔗 https://github.com/OpenBMB/MiniCPM-o

Hugging Face: 🔗 https://huggingface.co/openbmb/MiniCPM-V-4

ModelScope: 🔗 https://modelscope.cn/models/OpenBMB/MiniCPM-V-4

CookBook: 🔗 https://github.com/OpenSQZ/MiniCPM-V-CookBook