Mistral AI发布新一代文档识别技术Mistral OCR3,在表格、扫描文档、复杂表格及手写识别方面表现突出,整体性能较上一代提升74%。该技术旨在高效准确提取各类文档中的文本和嵌入式图像,支持多格式处理,显著提升文档处理效率与精度。
腾讯混元开源10亿参数OCR模型HunyuanOCR,基于多模态架构,在多项任务中实现领先性能,支持多场景文字识别应用。
腾讯发布1B参数开源模型HunyuanOCR,基于混元多模态架构,在OCR应用中达到SOTA水平。模型采用端到端设计,一次推理即可获得最优结果,包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。
腾讯混元开源10亿参数OCR模型HunyuanOCR,采用端到端设计,集成视频编码器、视觉适配器和轻量化语言模型,在多项榜单获SOTA成绩,以体积小、部署便捷为核心优势,提供高效OCR解决方案。
Aya Vision 32B 是一个支持多语言的视觉语言模型,适用于OCR、图像描述、视觉推理等多种用途。
8亿参数的多语言视觉语言模型,支持OCR、图像描述、视觉推理等功能
一个强大的OCR包,使用最先进的视觉语言模型提取图像中的文本。
OCR-free 文档理解的统一结构学习模型
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$4
$16
$1
$10
256
$2
$20
Baidu
128
$6
$24
Dogacel
这是一个基于原始DeepSeek-OCR模型的优化版本,专门支持在苹果金属性能着色器(MPS)和CPU上进行推理的OCR模型。它能够从图像中提取文本并转换为结构化格式,支持多语言文档识别。
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
nvidia
NVIDIA Nemotron Parse v1.1 是一款先进的文档解析模型,专门用于理解文档语义并提取具有空间定位的文本和表格元素。它能够将非结构化文档转换为机器可读的结构化表示,克服了传统OCR在处理复杂文档布局时的局限性。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
redponike
Qwen3-VL-4B-Instruct 是通义千问系列最新的视觉语言模型,在4B参数规模下实现了卓越的视觉感知、文本理解与生成、空间推理和智能体交互能力。它支持长上下文和视频理解,具备强大的OCR和多语言处理能力。
noctrex
LightOnOCR-1B-1025是基于图像到文本的OCR模型,采用1B参数规模,经过imatrix量化优化,专门用于从图像中提取和识别文本内容。
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
mlx-community
DeepSeek-OCR-8bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化的视觉语言模型,支持多语言OCR识别和图像文本理解任务。
quocnguyen
该模型是基于DeepSeek-OCR转换的MLX格式视觉语言模型,专门用于光学字符识别(OCR)任务,支持多语言文本识别和图像理解
这是一个基于DeepSeek-OCR模型转换的MLX格式模型,支持多语言图像文本识别和文本生成功能,专门针对OCR任务优化。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款强大的图像到markdown的OCR模型,能够将文档转换为结构化的markdown格式,并进行智能内容识别和语义标记,支持多语言文档处理。
richardyoung
olmOCR-2-7B-1025是由AllenAI开发的高质量OCR视觉语言模型,专门用于处理文档、图像中的文字识别任务。本仓库提供其GGUF量化版本,采用Q8_0量化方式,在减小模型大小的同时保持了出色的准确性。
impresso-project
Impresso NER模型是一个专门用于历史文档处理的多语言命名实体识别模型。基于堆叠式Transformer架构,能够识别数字化历史文本中的细粒度和粗粒度实体类型,包括人名、头衔、地点等。该模型针对历史文档中的OCR噪声、拼写变化和非标准语言用法进行了优化。
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
rtr46
meiki.text.detect.v0.1是专门针对视频游戏和漫画文本检测的高精度、低延迟OCR模型,在日语相关内容上表现优异。该模型基于D-FINE检测器架构,采用MobileNet v4 small作为骨干网络,提供两种分辨率变体以适应不同应用场景。
datalab-to
Chandra是一款先进的OCR模型,能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出,在手写体识别、表单重构、表格处理等方面表现出色,支持40多种语言。
DevQuasar
这是nanonets/Nanonets-OCR2-3B模型的量化版本,致力于让知识为每个人所用。项目得到了Civo的支持,是一个专注于文本生成的OCR模型。
AhmedZaky1
DIMI阿拉伯语OCR v2是一款专门针对阿拉伯语文本识别优化的光学字符识别模型,基于Qwen2.5-VL-7B-Instruct微调开发,在变音符密集文本处理方面相比v1版本有显著改进
allenai
olmOCR-2-7B-1025的FP8量化版本,基于Qwen2.5-VL-7B-Instruct微调而来,专门用于处理数学方程、表格等复杂OCR场景的视觉语言模型。
WeightedAI
波斯语OCR是一个专门针对波斯语文本设计的光学字符识别深度学习模型,采用CNN+变压器架构,在包含60万张合成波斯语文本图像的数据集上训练,序列准确率达到96%。
Nutrient DWS MCP Server是一个与Nutrient文档Web服务处理器API集成的模型上下文协议服务器,为AI助手提供强大的PDF处理功能,包括数字签名、文档生成、编辑、OCR、水印、涂黑等操作。
基于OpenAI视觉模型的OCR服务,集成Cursor IDE实现图片文字自动提取与保存
fileAI MCP服务器提供端到端的文件处理解决方案,包括OCR、文档分类和结构化数据提取,支持AI模型集成和异步处理。
Odoo MCP服务器提供对Odoo 18.0的高安全JSON-RPC访问和OCR文档解析的Extract API接口,支持模型查询、记录操作和文档提取功能。