阿里国际开源新一代多模态大模型Ovis2.5,专注于原生分辨率视觉感知、深度推理和高性价比场景设计。该模型在OpenCompass评测中综合得分显著提升,保持同类开源模型SOTA水平,并推出两个不同参数规模版本。
阿里国际数字贸易集团AI团队发布多模态大语言模型Ovis2.5,提供9B和2B两种参数规模。该模型定位经济型视觉推理解决方案,具备原生分辨率感知能力,采用NaViT视觉编码器保留图像细节和全局结构,确保高质量视觉处理。
Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。
Isotr0py
Ovis2-1B是多模态大语言模型(MLLM)Ovis系列的最新成员,专注于视觉与文本嵌入的结构对齐,具有小模型高性能、强化推理能力、视频与多图处理以及多语言OCR增强等特性。