AIBase
首页
AI资讯
AI产品库
模型广场
MCP服务
AI服务
算力市场
AI应用指南
ZH

AI资讯

查看更多

OCR 2.0模型来了!图表、几何图形、音乐符号均转换为可编辑文本

最近,研究人员开发了一种新的通用光学字符识别(OCR)模型,名为 GOT(通用 OCR 理论)。在他们的论文中,首次提出了 “OCR2.0” 的概念,这个新模型旨在将传统 OCR 系统的优点与大型语言模型的强大功能结合起来。GOT 的架构相当先进,包含了一个大约8000万参数的图像编码器和一个500万参数的解码器。图像编码器能够将1024x1024像素的图像压缩成 tokens,而解码器则负责将这些 tokens 转换成最长可达8000个字符的文本。通过这种方式,OCR2.0

17.5k 4 天前
OCR 2.0模型来了!图表、几何图形、音乐符号均转换为可编辑文本
AIBase
智启未来,您的人工智能解决方案智库
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2026AIBase
商务合作网站地图