腾讯混元开源10亿参数OCR模型HunyuanOCR,基于多模态架构,在多项任务中实现领先性能,支持多场景文字识别应用。
腾讯发布1B参数开源模型HunyuanOCR,基于混元多模态架构,在OCR应用中达到SOTA水平。模型采用端到端设计,一次推理即可获得最优结果,包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。
腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
10月16日,百度飞桨发布视觉语言模型PaddleOCR-VL,以0.9B参数在权威评测OmniDocBench V1.5中获92.56分,超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日,Huggingface趋势榜前三均为OCR模型,百度飞桨位列第一。
快速将 PDF 文件转换为 Markdown 格式,保留原始样式。
全球首个由深度学习驱动的在线 OCR 工具,97% 准确率。
强大的文档转换工具,支持图像和 PDF 转换为 LaTeX 等格式。
停止手动输入发票信息。InvoiceClip的AI OCR可即时扫描收据、账单和公用事业发票,提供整洁、准确、可导出的数据。
Alibaba
$2
输入tokens/百万
$20
输出tokens/百万
-
上下文长度
Baidu
32
Minimax
$3
$9
128
Dogacel
这是一个基于原始DeepSeek-OCR模型的优化版本,专门支持在苹果金属性能着色器(MPS)和CPU上进行推理的OCR模型。它能够从图像中提取文本并转换为结构化格式,支持多语言文档识别。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
nvidia
NVIDIA Nemotron Parse v1.1 是一款先进的文档解析模型,专门用于理解文档语义并提取具有空间定位的文本和表格元素。它能够将非结构化文档转换为机器可读的结构化表示,克服了传统OCR在处理复杂文档布局时的局限性。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
noctrex
LightOnOCR-1B-1025是基于图像到文本的OCR模型,采用1B参数规模,经过imatrix量化优化,专门用于从图像中提取和识别文本内容。
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
mlx-community
DeepSeek-OCR-8bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化的视觉语言模型,支持多语言OCR识别和图像文本理解任务。
quocnguyen
该模型是基于DeepSeek-OCR转换的MLX格式视觉语言模型,专门用于光学字符识别(OCR)任务,支持多语言文本识别和图像理解
这是一个基于DeepSeek-OCR模型转换的MLX格式模型,支持多语言图像文本识别和文本生成功能,专门针对OCR任务优化。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款强大的图像到markdown的OCR模型,能够将文档转换为结构化的markdown格式,并进行智能内容识别和语义标记,支持多语言文档处理。
richardyoung
olmOCR-2-7B-1025是由AllenAI开发的高质量OCR视觉语言模型,专门用于处理文档、图像中的文字识别任务。本仓库提供其GGUF量化版本,采用Q8_0量化方式,在减小模型大小的同时保持了出色的准确性。
impresso-project
Impresso NER模型是一个专门用于历史文档处理的多语言命名实体识别模型。基于堆叠式Transformer架构,能够识别数字化历史文本中的细粒度和粗粒度实体类型,包括人名、头衔、地点等。该模型针对历史文档中的OCR噪声、拼写变化和非标准语言用法进行了优化。
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
rtr46
meiki.text.detect.v0.1是专门针对视频游戏和漫画文本检测的高精度、低延迟OCR模型,在日语相关内容上表现优异。该模型基于D-FINE检测器架构,采用MobileNet v4 small作为骨干网络,提供两种分辨率变体以适应不同应用场景。
datalab-to
Chandra是一款先进的OCR模型,能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出,在手写体识别、表单重构、表格处理等方面表现出色,支持40多种语言。
DevQuasar
这是nanonets/Nanonets-OCR2-3B模型的量化版本,致力于让知识为每个人所用。项目得到了Civo的支持,是一个专注于文本生成的OCR模型。
AhmedZaky1
DIMI阿拉伯语OCR v2是一款专门针对阿拉伯语文本识别优化的光学字符识别模型,基于Qwen2.5-VL-7B-Instruct微调开发,在变音符密集文本处理方面相比v1版本有显著改进
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
WeightedAI
波斯语OCR是一个专门针对波斯语文本设计的光学字符识别深度学习模型,采用CNN+变压器架构,在包含60万张合成波斯语文本图像的数据集上训练,序列准确率达到96%。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的视觉语言模型,专注于光学字符识别(OCR)和文档分析。该模型采用GGUF格式,支持多语言处理,具备出色的OCR精度和推理速度,适用于各种文档处理场景。
一个基于xAI Grok API的MCP服务器,提供AI图像分析功能,支持URL和本地文件的图像描述、元数据提取和OCR文字识别
手写OCR的MCP服务端
手写OCR的MCP服务端,提供文档上传、状态检查和文本获取功能
一个提供屏幕截图和OCR文本识别功能的MCP服务器
基于RapidOCR的MCP服务器,提供便捷的OCR接口服务
基于Florence-2的MCP图像处理服务
一个提供图像识别功能的MCP服务器,支持Anthropic和OpenAI的视觉API,具备图像描述、多格式支持、可配置主备服务商及OCR文本提取功能。
MCP服务器提供网页内容抓取功能,支持浏览器自动化、OCR和多方法内容提取,帮助LLM获取并处理需要JavaScript渲染或防爬取的网页内容。
TextIn MCP Server是一个文档文本提取和OCR工具,支持从图片、PDF和Word中识别文本、提取关键信息并转换为Markdown格式。
一个提供计算机控制功能的MCP服务器,包括鼠标键盘控制、OCR识别、窗口管理等,基于PyAutoGUI和RapidOCR实现,无外部依赖。
Archive Agent 是一个智能文件索引工具,支持通过自然语言搜索和提问文件内容。它结合了AI搜索(RAG引擎)、自动OCR和MCP接口,能够处理多种文件类型,包括文本、文档、PDF和图像。
Nutrient DWS MCP Server是一个与Nutrient文档Web服务处理器API集成的模型上下文协议服务器,为AI助手提供强大的PDF处理功能,包括数字签名、文档生成、编辑、OCR、水印、涂黑等操作。
一个提供计算机控制功能的MCP服务器,包括鼠标键盘控制、屏幕截图、OCR文字识别等,支持跨平台运行,无需外部依赖。
基于Mistral AI的OCR服务,支持本地文件和URL的图文识别
基于OpenAI视觉模型的OCR服务,集成Cursor IDE实现图片文字自动提取与保存
fileAI MCP服务器提供端到端的文件处理解决方案,包括OCR、文档分类和结构化数据提取,支持AI模型集成和异步处理。
手写OCR的MCP服务端,实现与Handwriting OCR API的集成,支持上传图片/PDF文档、检查状态和获取OCR识别结果。
Lizeur是一个基于MCP协议的PDF内容提取服务器,利用Mistral AI的OCR技术将PDF转换为易读的markdown文本,支持智能缓存和快速集成。
Paperless MCP是一个开源的现代化文档管理系统,旨在为企业提供高效的数字文档处理解决方案,包括存储、组织、搜索和处理文档,支持OCR、元数据提取和自动分类等功能,同时确保安全性和合规性。
项目包含MCP和REST两种API,MCP接口服务于Claude等客户端,REST接口用于报表和自动化任务。当前功能包括邮箱搜索和OCR处理,下一步将实现PDF附件处理和结构化输出。