OpenBMB 团队近日宣布,新一代多模态大模型 MiniCPM-V4.0 正式开源发布。该模型凭借其轻量级架构和卓越性能,被誉为“手机上的 GPT-4V”,有望为移动设备上的 AI 应用带来革命性的突破。
MiniCPM-V4.0的核心在于其精巧的设计。它基于 SigLIP2-400M 和 MiniCPM4-3B 构建,参数量仅为 4.1B,却在图像、多图像和视频理解方面展现出强大的能力。这使得它不仅能轻松处理单张图片,还能理解复杂的多图关联内容和视频片段,为用户带来更智能的交互体验。
尽管参数量小,MiniCPM-V4.0的性能表现却令人惊叹。在权威的 OpenCompass 八大主流评测基准上,该模型平均得分高达 69.0,超越了 GPT-4.1-mini 和 Qwen2.5-VL-3B 等一众竞争对手。这一成绩证明了其在视觉理解方面的强大实力,尤其是在处理复杂场景时,其准确性和深度分析能力令人印象深刻。
MiniCPM-V4.0的另一大亮点是其专为移动设备进行的高度优化。在最新的 iPhone16Pro Max 上的实测显示,该模型首次响应延迟不到 2秒,解码速度超过 17token/秒,并且在运行时能有效控制设备发热,确保了流畅稳定的用户体验。此外,它还能处理高并发请求,非常适合在手机、平板电脑等边缘设备上的实际应用。
为了降低开发者的使用门槛,OpenBMB 团队提供了丰富的生态支持。MiniCPM-V4.0兼容 llama.cpp、Ollama 和 vllm_project 等主流框架,为开发者提供了灵活多样的部署选择。团队还专门开发了 iOS 应用,支持在 iPhone 和 iPad 上直接运行,并发布了详细的 Cookbook,提供完整的教程和代码示例。
MiniCPM-V4.0的发布,为多模态技术的应用开辟了新天地。其主要应用场景广泛,包括:
图像分析与多轮对话: 用户可以上传图片,让模型进行内容分析,并在此基础上进行连续对话。
视频理解: 能够分析视频内容,为需要处理视频信息的场景提供解决方案。
OCR 与数学推理: 模型具备识别图片中文字和解决数学问题的能力,大大提升了其在实际工作和学习中的实用性。
MiniCPM-V4.0的开源,不仅展示了国内 AI 团队在轻量级模型研发上的卓越实力,也为全球开发者提供了探索移动端多模态技术的强大工具,为 AI 普惠化迈出了坚实的一步。
Github:https://github.com/OpenBMB/MiniCPM-o
Hugging Face:https://huggingface.co/openbmb/MiniCPM-V-4
ModelScope:https://modelscope.cn/models/OpenBMB/MiniCPM-V-4
CookBook:https://github.com/OpenSQZ/MiniCPM-V-CookBook