小红书发布开源多模态大模型 dots.vlm1,以 NaViT 视觉编码器领跑行业
小红书Hi Lab开源自研多模态大模型dots.vlm1,基于12亿参数NaViT视觉编码器和DeepSeek V3语言模型,性能接近Gemini2.5Pro等闭源模型。其创新点在于原生自研支持动态分辨率的NaViT编码器,通过双重监督提升泛化能力,在图表、公式等结构化图片处理上表现突出。团队构建高质量训练数据,在MMMU等多项评测中达到顶尖水平,尤其在图表推理、STEM数学等任务上表现出色。未来计划扩大数据规模并引入强化学习,持续优化模型性能。