Best 通用OCR理论 AI Tools & Models - Premium 通用OCR理论 News

AI News

OCR 2.0模型来了！图表、几何图形、音乐符号均转换为可编辑文本

最近，研究人员开发了一种新的通用光学字符识别（OCR）模型，名为 GOT(通用 OCR 理论)。在他们的论文中，首次提出了 “OCR2.0” 的概念，这个新模型旨在将传统 OCR 系统的优点与大型语言模型的强大功能结合起来。GOT 的架构相当先进，包含了一个大约8000万参数的图像编码器和一个500万参数的解码器。图像编码器能够将1024x1024像素的图像压缩成 tokens，而解码器则负责将这些 tokens 转换成最长可达8000个字符的文本。通过这种方式，OCR2.0

17.2k yesterday

OCR 2.0模型：一键将文本、公式、图表图像转换为可编辑文本

在数字化时代，将图像中的文字内容快速转换成可编辑文本是一个常见且重要的需求。现在，一项名为GOT（通用光学字符识别理论）的新型光学字符识别(OCR)模型的问世，标志着OCR技术迈入了2.0时代。这一创新模型结合了传统OCR系统与大型语言模型的优势，旨在打造一个更高效、更智能的文本识别工具。GOT模型采用了一种创新的端到端架构，这一设计不仅节省资源，还极大地扩展了识别能力，使其不仅限于文本识别。该模型由一个参数约8000万的图像编码器和一个参数约500万的解码器组成。

14.7k yesterday