表格、图表统统拿下!阿里达摩院开源DocOwl 1.5 无需OCR,高效“读懂”文档!
阿里巴巴达摩院与中国人民大学近日联合开源了一款名为 mPLUG-DocOwl1.5的文档处理模型,该模型主打无需 OCR 识别即可理解文档内容,并在多个视觉文档理解基准测试中取得了领先的性能。结构信息对于理解富文本图像(例如文档、表格和图表)的语义至关重要。 现有的多模态大型语言模型 (MLLM) 虽然具备文本识别能力,但缺乏对富文本文档图像的通用结构理解能力。为了解决这一问题,mPLUG-DocOwl1.5强调结构信息在视觉文档理解中的重要性,并提出了 “统一结构学习” 来提升 MLLM 的性能。