IBM发布Granite 4.0 3B Vision视觉语言模型,拥有30亿参数,专为企业级复杂文档数据提取优化。该模型针对金融、法律、医疗等行业非结构化数据处理难题,在复杂表格、扫描件及多模态布局文档中表现突出,通过结合视觉理解与语言生成,精准识别并提取关键信息。
Mistral AI发布新一代文档识别技术Mistral OCR3,在表格、扫描文档、复杂表格及手写识别方面表现突出,整体性能较上一代提升74%。该技术旨在高效准确提取各类文档中的文本和嵌入式图像,支持多格式处理,显著提升文档处理效率与精度。
谷歌推出NotebookLM图像识别功能,支持上传板书、教材或表格图片,自动完成文字识别与语义分析,用户可直接用自然语言检索图片内容。该功能全平台免费,即将增加本地处理选项保护隐私。系统采用多模态技术,能区分手写与印刷体、解析表格结构,并与现有笔记智能关联。
百度开源多模态文档解析模型PaddleOCR-VL,在OmniBenchDoc V1.5评测中以92.6分获全球第一。该模型仅0.9B参数,轻量高效,能精准识别文本、手写汉字、表格、公式及图表,四大核心能力表现卓越。
文档图像版面还原工具
学术文献中表格和图表的识别工具
Anthropic
$21
输入tokens/百万
$105
输出tokens/百万
200
上下文长度
Alibaba
$1
$10
256
$8
$240
52
$15.8
$12.7
64
Bytedance
-
$0.8
$2
128
Baidu
32
$0.3
Tencent
$3
$9
16
$1.5
$4.5
Huawei
noctrex
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
datalab-to
Chandra是一款先进的OCR模型,能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出,在手写体识别、表单重构、表格处理等方面表现出色,支持40多种语言。
echo840
MonkeyOCR是一款基于结构-识别-关系(SRR)三元范式的文档解析模型,能够高效处理PDF和图像文档,提取文本、公式、表格等结构化内容,支持中英文文档解析。
PaddlePaddle
RT-DETR-L_wireless_table_cell_det 是一个高精度的表格单元格检测模型,专为表格识别任务设计,能够准确定位和标记表格图像中的每个单元格区域。
RT-DETR-L_wired_table_cell_det 是表格识别任务中的关键模块,主要负责定位和标记表格图像中的每个单元格区域。
SLANet_plus是一款用于表格结构识别的模型,能够将不可编辑的表格图像转换为可编辑的表格格式(如HTML),在表格识别系统中发挥着重要作用,可有效提升表格识别的准确性和效率。
erax-ai
EraX-VL-7B-V2.0-Preview是一款强大的多模态模型,专为OCR和视觉问答设计,擅长处理越南语等多种语言,在医疗表格、发票等文档识别上表现突出。
kitjesen
该模型能够将PDF文档转换为Markdown格式,保持原始文档排版结构,准确识别数学公式和表格。
U4R
基于InternVL2-1B的多模态表格识别模型,支持将表格图像转换为LaTeX/HTML/Markdown格式
Kansallisarkisto
该模型用于从表格单元格的文本行图像中识别手写文本,特别适用于20世纪30年代芬兰死亡记录和人口普查记录中的手写文本识别。
ucsahin
基于google/paligemma-3b-mix-448微调的多模态表格检测模型,专用于识别图像中的表格区域
nsugianto
该模型是一个表格结构识别模型,可能用于从文档中提取表格的结构信息。
rjhugs
基于microsoft/table-transformer-structure-recognition-v1.1-all微调的表格结构识别模型
breezedeus
基于微软Table Transformer开发的表格结构识别模型,用于文档中的表格检测与识别任务
microsoft
基于Transformer的表格结构识别模型,用于检测文档中的表格结构
基于DETR架构的表格结构识别模型,专门用于检测和分析文档中的表格结构。
基于PubTables1M数据集训练的表格变换器模型,用于文档中的表格结构识别。
aParadigmP
基于DETR架构的表格检测模型,专门用于从文档中识别表格区域
deepdoctection
基于PubTables1M和FinTabNet数据集训练的DETR架构模型,专用于表格结构识别任务
foduucom
基于YOLOv8s的表格检测模型,能够准确识别图像中的有边框和无边框表格。