開源社區推出LLaVA-OneVision-1.5多模態模型,實現技術突破。該模型歷經兩年發展,從基礎圖文對齊升級爲能處理圖像、視頻的綜合框架,核心提供開放高效的可復現訓練架構,支持用戶便捷構建高質量視覺語言模型,訓練過程分三個階段推進。
lmms-lab
LLaVA-OneVision-1.5 是一系列完全開源的大型多模態模型,通過在原生分辨率圖像上進行訓練,以較低的成本實現了先進的性能。該模型在多個多模態基準測試中展現出卓越性能,超越了Qwen2.5-VL等競爭對手。