OCR 2.0模型來了!圖表、幾何圖形、音樂符號均轉換爲可編輯文本
最近,研究人員開發了一種新的通用光學字符識別(OCR)模型,名爲 GOT(通用 OCR 理論)。在他們的論文中,首次提出了 “OCR2.0” 的概念,這個新模型旨在將傳統 OCR 系統的優點與大型語言模型的強大功能結合起來。GOT 的架構相當先進,包含了一個大約8000萬參數的圖像編碼器和一個500萬參數的解碼器。圖像編碼器能夠將1024x1024像素的圖像壓縮成 tokens,而解碼器則負責將這些 tokens 轉換成最長可達8000個字符的文本。通過這種方式,OCR2.0