表格、圖表統統拿下!阿里達摩院開源DocOwl 1.5 無需OCR,高效“讀懂”文檔!
阿里巴巴達摩院與中國人民大學近日聯合開源了一款名爲 mPLUG-DocOwl1.5的文檔處理模型,該模型主打無需 OCR 識別即可理解文檔內容,並在多個視覺文檔理解基準測試中取得了領先的性能。結構信息對於理解富文本圖像(例如文檔、表格和圖表)的語義至關重要。 現有的多模態大型語言模型 (MLLM) 雖然具備文本識別能力,但缺乏對富文本文檔圖像的通用結構理解能力。爲了解決這一問題,mPLUG-DocOwl1.5強調結構信息在視覺文檔理解中的重要性,並提出了 “統一結構學習” 來提升 MLLM 的性能。