Anthropic推出Claude for Word测试版插件,深度集成微软Office,瞄准法律、财务等文档处理行业。其核心亮点在于与文档内容的深度交互,提供带“证据”的AI助手功能,用户提问时回答会附带可点击的段落引用,实现可追溯的引用支持。
Anthropic推出Claude for Word测试版,深度集成Word文档处理功能,精准服务于法律和金融行业。该工具不仅能针对文档内容智能回答,还支持精准引用和可点击溯源,成为专业人士处理海量文档的“第二大脑”。
谷歌推出Gemini“Notebooks”功能,打造个人知识库,帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒,构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF,导入历史对话并通过自定义指令引导Gemini进行智能分析。
Adobe推出免费AI学习工具“Student Spaces”,面向学生群体,支持免登录使用。该工具集成多模态解析能力,可处理PDF、Office文档、网页链接及手写笔记等多种格式,提供一站式阅读与资料处理平台。
一个免费的无限制 AI 文档翻译工具,完美保留原始布局。
aOCR:AI文档解析与数据提取软件,99.2%准确率,实时处理,多语言支持
Feen AI可解决多学科作业问题,还能总结PDF、撰写论文等
全球首个由深度学习驱动的在线 OCR 工具,97% 准确率。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$7
$35
$21
$105
Alibaba
$2
$20
256
$3.9
$15.2
64
$0.8
128
Baidu
32
Tencent
$1
$4
Bytedance
$8
tencent
混元OCR是由混元原生多模态架构驱动的端到端OCR专家VLM模型,仅用10亿参数的轻量级设计,在多个行业基准测试中取得最先进成绩。该模型擅长处理复杂的多语言文档解析,在文本定位、开放域信息提取、视频字幕提取和图片翻译等实际应用场景中表现出色。
nvidia
NVIDIA Nemotron Parse v1.1 是一款先进的文档解析模型,专门用于理解文档语义并提取具有空间定位的文本和表格元素。它能够将非结构化文档转换为机器可读的结构化表示,克服了传统OCR在处理复杂文档布局时的局限性。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
noctrex
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款强大的图像到markdown的OCR模型,能够将文档转换为结构化的markdown格式,并进行智能内容识别和语义标记,支持多语言文档处理。
richardyoung
olmOCR-2-7B-1025是由AllenAI开发的高质量OCR视觉语言模型,专门用于处理文档、图像中的文字识别任务。本仓库提供其GGUF量化版本,采用Q8_0量化方式,在减小模型大小的同时保持了出色的准确性。
impresso-project
Impresso NER模型是一个专门用于历史文档处理的多语言命名实体识别模型。基于堆叠式Transformer架构,能够识别数字化历史文本中的细粒度和粗粒度实体类型,包括人名、头衔、地点等。该模型针对历史文档中的OCR噪声、拼写变化和非标准语言用法进行了优化。
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
Llama Nemotron Reranking 1B是NVIDIA开发的专门用于文本检索重排序的模型,基于Llama-3.2-1B架构微调,能够为查询-文档对提供相关性对数得分,支持多语言和长文档处理。
Llama Nemotron Embedding 1B模型是NVIDIA开发的专为多语言和跨语言文本问答检索优化的嵌入模型,支持26种语言,能够处理长达8192个标记的文档,并可通过动态嵌入大小大幅减少数据存储占用。
jinaai
这是jina-reranker-v3模型的GGUF量化版本,是一个具有0.6B参数的多语言列表式重排器,专门用于文档重排任务,经过量化处理以实现高效推理。
onnx-community
Granite Docling 258M是一个基于ONNX格式的图像文本转文本模型,专门用于文档理解和处理。该模型能够将图像中的文档内容转换为结构化的文本格式,支持多模态输入处理。
pierre-tassel
Rapido NER 是一个强大的多语言命名实体识别器和实体嵌入模型,以猫 Rapido 命名。该模型提供强大的多语言 NER 性能,支持实体聚类和检索,处理文档内聚类以及长上下文等任务。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的视觉语言模型,专注于光学字符识别(OCR)和文档分析。该模型采用GGUF格式,支持多语言处理,具备出色的OCR精度和推理速度,适用于各种文档处理场景。
mradermacher
这是一个基于Qwen2.5-14B模型优化的波斯语科学文档问答模型,专门针对波斯语科学文档进行问答任务优化,通过量化处理提供了多种不同大小的模型文件以适应不同场景需求。
基于Qwen2.5-14B模型的波斯语科学问答量化模型,专门针对波斯语科学文档的问答任务进行了优化和量化处理。
allenai
这是基于Qwen2.5-VL-7B-Instruct微调的FP8量化版本OCR模型,专门用于文档图像文本识别,支持高效的大规模文档处理。
ekacare
专为印度医疗保健环境设计的视觉大语言模型,专门处理医疗记录相关任务,包括检验报告解析、电子处方解析、文档分类和个人身份信息提取。
echo840
MonkeyOCR是一款基于结构-识别-关系(SRR)三元范式的文档解析模型,能够高效处理PDF和图像文档,提取文本、公式、表格等结构化内容,支持中英文文档解析。
rasyosef
这是一个基于BERT-Mini(1100万参数)的SPLADE稀疏检索模型,通过在MSMARCO数据集上对交叉编码器进行知识蒸馏训练得到。该模型比官方splade-v3-distilbert小6倍,但能达到其85%的性能,可在CPU上处理数千个文档。
Haiku RAG是一个基于LanceDB、Pydantic AI和Docling构建的智能检索增强生成系统,支持混合搜索、重排序、问答代理、多代理研究流程,并提供本地优先的文档处理和MCP服务器集成。
DevDocs是一款智能文档爬取与处理工具,旨在帮助开发者快速理解和实现技术文档,大幅缩短研发周期。
Pinecone MCP Server是一个为Claude Desktop设计的模型上下文协议服务器,提供与Pinecone索引的读写交互功能。
HWP-MCP是一个让AI模型控制HWP文档的协议服务,支持文档创建、编辑和自动化处理。
Office-Word-MCP-Server是一个基于Model Context Protocol的服务器,为AI助手提供创建、读取和操作Microsoft Word文档的标准接口,支持丰富的文档编辑功能。
Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器,支持从PDF、图片和Office文件中提取结构化内容,并集成Claude Desktop等MCP客户端。
本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器,使用ChromaDB进行向量索引,并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题,实现了将大型语言模型与特定领域知识相结合的智能问答功能。
一个专注于高效爬取和清理依赖文档的工具包,适用于人类阅读和AI处理。
手写OCR的MCP服务端
手写OCR的MCP服务端,提供文档上传、状态检查和文本获取功能
Ultimate MCP Server是一个基于模型上下文协议(MCP)的AI代理操作系统,提供数十种强大工具能力,包括智能任务委派、文档处理、浏览器自动化、Excel操作等,通过标准化MCP工具实现AI代理的认知增强和复杂任务编排。
MCP Docling Server是一个提供文档处理能力的服务器,支持多种文档转换和提取功能,包括格式转换、表格提取和问答生成等,可与Llama Stack集成增强LLM应用能力。
Decompose是一个用于AI代理的确定性文本分类工具,通过纯正则表达式和启发式方法将文本分解为结构化语义单元,无需LLM即可实现快速、离线的文档预处理,显著减少LLM处理的token数量。
飞书MCP服务器是一个基于Model Context Protocol的服务,提供飞书API集成,使AI模型能够轻松与飞书服务交互。
Dart MCP Server是一个基于Dart的模型上下文协议(MCP)服务器实现,提供任务管理、文档处理和空间组织功能,支持与AI助手集成。
该项目是一个基于Model Context Protocol (MCP)标准的文档处理服务器,通过构建向量数据库和MCP接口,使AI助手能够访问外部文档资源,突破大语言模型的知识限制。项目包含文档处理流水线和MCP服务端两大组件,支持多种嵌入模型和文件格式,可应用于最新技术文档查询、私有代码库理解等场景。
一个包含多种实用MCP服务的仓库,提供Git、Google Sheets、Jenkins和文件操作等服务,并附带开发教程
Content Core是一个AI驱动的多功能内容提取与处理平台,支持从网页、文档、音视频等各类来源提取内容,并提供智能清理、摘要生成等功能,支持命令行、Python库、MCP服务等多种集成方式。
DocNav是一个基于MCP协议的文档导航服务器,为LLM智能体提供类人化的长文档阅读、分析和导航能力,支持多格式文档处理和智能搜索功能。
基于MCP的高性能PDF转Markdown服务,支持本地文件和URL批量处理,保留文档结构并智能优化输出。