5月24日,字节跳动Seed团队联合香港科技大学发布了一项针对多模态大语言模型(LMM)长文档训练的最新研究成果。研究人员基于阿里巴巴开源的
这项研究的核心发现直击当前LMM训练的痛点:在多模态长文档训练中,针对特定目标进行问答对(QA)训练的效果显著优于传统的字符识别(OCR)转录。实验表明,纯文本转录作为训练任务非但无法提升模型在长上下文中的定位能力,反而会导致性能下降;而通过独立模型(如
基于这一优化策略,MMProLong 在仅 128,000个Token 的有限训练预算下,展现出极强的长文本稳定性,在输入长度达到 256,000乃至512,000个Token 时依然没有出现性能崩溃,并在 MMLongBench 和 MM-NIAH(大海捞针)基准测试中大幅超越 InternVL3-38B 和
此项研究为当前大模型行业提供了一条不同于 DeepSeek(通过视觉信息高度压缩与重新排序升级架构)的演进路线,证明了通过优化训练数据结构而非改动底层架构,同样能实现长上下文能力的跨越式提升,为未来更长模态、多步骤智能体的开发开辟了更为经济、高效的技术可行性。

