Adobe于5月6日推出Acrobat新功能PDF Spaces,将静态PDF转化为互动AI工作空间。用户可整合文档、链接、笔记等内容,利用AI生成摘要和演示文稿,实现信息分享与利用的全新方式。
谷歌推出Gemini“Notebooks”功能,打造个人知识库,帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒,构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF,导入历史对话并通过自定义指令引导Gemini进行智能分析。
Adobe推出免费AI学习工具“Student Spaces”,面向学生群体,支持免登录使用。该工具集成多模态解析能力,可处理PDF、Office文档、网页链接及手写笔记等多种格式,提供一站式阅读与资料处理平台。
MiniMax开源办公文档引擎Office Skills,解决AI生成内容不可用问题。该引擎基于MIT协议,支持Word、Excel、PPT和PDF,通过底层重构绕过传统库,实现直接交付标准,提升AI办公实用性。
免费AI PDF总结器,秒速总结文档,还能与AI聊天理解要点。
强大的文档转换工具,支持图像和 PDF 转换为 LaTeX 等格式。
PDFT.AI是一款AI驱动的在线文档翻译工具,支持将PDF、DOC、Excel和TXT文件免费翻译成100多种语言。
DeepPDF是一个AI研究助手,用于深度学习PDF文档,提供聊天、摘要、翻译比较以及关键术语、图片和公式分析功能。
Google
$0.49
Input tokens/M
$2.1
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
Openai
$7.7
$30.8
200
Alibaba
$2
$20
-
256
$0.8
128
Baidu
32
$0.75
Anthropic
$105
$525
$15
$1.8
$5.4
16
$21
Tencent
$0.5
224
Bytedance
$1.5
$4.5
$3
$9
Huawei
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
noctrex
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
Mungert
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
echo840
MonkeyOCR是一款基于结构-识别-关系(SRR)三元范式的文档解析模型,能够高效处理PDF和图像文档,提取文本、公式、表格等结构化内容,支持中英文文档解析。
apkonsta
专为国际财务报告准则(IFRS)PDF文档优化的表格检测模型,擅长处理无边框表格
kitjesen
该模型能够将PDF文档转换为Markdown格式,保持原始文档排版结构,准确识别数学公式和表格。
Xenova
Nougat是一个基于视觉的学术文档理解模型,能够将科学PDF图像转换为Markdown格式文本。
shubh1608
基于图像文件夹数据集训练的OCR模型,用于PDF文档的文本识别
impira
基于LayoutLM架构微调的文档分类模型,专门用于处理PDF文档特别是发票的分类任务
PageIndex MCP是一个基于推理的无向量RAG系统,通过MCP协议将文档的树状索引暴露给LLM,使Claude等平台能够像人类专家一样通过结构推理检索PDF文档信息,无需向量数据库。
本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器,使用ChromaDB进行向量索引,并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题,实现了将大型语言模型与特定领域知识相结合的智能问答功能。
Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器,支持从PDF、图片和Office文件中提取结构化内容,并集成Claude Desktop等MCP客户端。
基于MCP的高性能PDF转Markdown服务,支持本地文件和URL批量处理,保留文档结构并智能优化输出。
一个将Markdown文档转换为PDF文件的MCP服务器,支持语法高亮和自定义样式
该项目构建了一个基于RAG的HR聊天机器人,通过MCP服务器作为功能调用中心,实现PDF文档上传、解析、检索及自然语言问答功能。
一个为Claude Desktop提供文档操作功能的MCP服务器,支持Word、Excel和PDF文件的创建、编辑与格式转换。
ParseFlow是一个AI驱动的全能文档解析库,支持PDF、Word、Excel、PPT和图片OCR,提供语义搜索和批量处理功能,并包含MCP服务器供AI助手使用。
Mnemo是一个为AI助手提供扩展记忆的MCP服务,通过Gemini的上下文缓存功能,允许助手加载大型代码库、文档、PDF等资料并进行自然语言查询,实现低成本、低延迟的完美信息召回。
Zed的PDF语义搜索扩展,集成AI助手增强文档处理能力
一个基础的MCP服务器,用于与PDF和EPUB文档交互。
一个支持MCP协议的PDF阅读工具,通过MCP服务器提供read_pdf功能读取PDF文档,适用于Claude Desktop等MCP支持的AI工具。
TextIn MCP Server是一个文档文本提取和OCR工具,支持从图片、PDF和Word中识别文本、提取关键信息并转换为Markdown格式。
一个基于Python的MCP服务器,利用Pandoc提供强大的文档转换功能,支持多种格式间的转换,如Markdown、DOCX、HTML、PDF等,适合与AI代理集成使用。
一个基于MCP协议的PDF转PNG服务,提供简单高效的文档转换功能。
Markdownify MCP UTF-8增强版是一个支持多语言内容转换的Markdown处理服务,优化了UTF-8编码支持,提供PDF/图片/音视频/Office文档等多种格式的Markdown转换能力,并针对Windows系统进行了特别优化。
Archive Agent 是一个智能文件索引工具,支持通过自然语言搜索和提问文件内容。它结合了AI搜索(RAG引擎)、自动OCR和MCP接口,能够处理多种文件类型,包括文本、文档、PDF和图像。
Nutrient DWS MCP Server是一个与Nutrient文档Web服务处理器API集成的模型上下文协议服务器,为AI助手提供强大的PDF处理功能,包括数字签名、文档生成、编辑、OCR、水印、涂黑等操作。
MCP文档转换器是一个基于MCP协议的多格式文档转换工具,支持Markdown、HTML、DOCX、PDF和文本五种格式之间的双向转换,为AI助手提供强大的文档处理能力。