AIBase
首頁
AI資訊
AI產品庫
模型廣場
MCP服务
AI服務
算力市場
AI應用指南
TW

AI資訊

查看更多

OCR 2.0模型來了!圖表、幾何圖形、音樂符號均轉換爲可編輯文本

最近,研究人員開發了一種新的通用光學字符識別(OCR)模型,名爲 GOT(通用 OCR 理論)。在他們的論文中,首次提出了 “OCR2.0” 的概念,這個新模型旨在將傳統 OCR 系統的優點與大型語言模型的強大功能結合起來。GOT 的架構相當先進,包含了一個大約8000萬參數的圖像編碼器和一個500萬參數的解碼器。圖像編碼器能夠將1024x1024像素的圖像壓縮成 tokens,而解碼器則負責將這些 tokens 轉換成最長可達8000個字符的文本。通過這種方式,OCR2.0

17.5k 1 天前
OCR 2.0模型來了!圖表、幾何圖形、音樂符號均轉換爲可編輯文本
AIBase
智啟未來,您的人工智能解決方案智庫
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商務合作網站地圖