开源社区推出LLaVA-OneVision-1.5多模态模型,实现技术突破。该模型历经两年发展,从基础图文对齐升级为能处理图像、视频的综合框架,核心提供开放高效的可复现训练架构,支持用户便捷构建高质量视觉语言模型,训练过程分三个阶段推进。
lmms-lab
LLaVA-OneVision-1.5 是一系列完全开源的大型多模态模型,通过在原生分辨率图像上进行训练,以较低的成本实现了先进的性能。该模型在多个多模态基准测试中展现出卓越性能,超越了Qwen2.5-VL等竞争对手。