表や図表も完璧に処理!アリババ達摩院がDocOwl 1.5をオープンソース化 OCR不要でドキュメントを効率的に「理解」
アリババ達摩院と中国人民大学は最近、mPLUG-DocOwl1.5というドキュメント処理モデルを共同でオープンソース化しました。このモデルはOCR認識なしでドキュメントの内容を理解できることを特徴とし、複数の視覚ドキュメント理解ベンチマークテストで優れた性能を達成しました。構造情報は、リッチテキスト画像(ドキュメント、表、図表など)のセマンティクスを理解する上で非常に重要です。既存のマルチモーダル大規模言語モデル(MLLM)はテキスト認識能力を備えているものの、リッチテキストドキュメント画像に対する一般的な構造理解能力が不足しています。