最好的'PDF' AI工具模型_精选'PDF'资讯

AI资讯

谷歌推出Gemini Notebooks功能:打通NotebookLM并上线个人知识库

谷歌推出Gemini“Notebooks”功能，打造个人知识库，帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒，构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF，导入历史对话并通过自定义指令引导Gemini进行智能分析。

66.8k 6 小时前

Adobe发布Acrobat Student Spaces:面向学生的免费全流程AI学习工具

Adobe推出免费AI学习工具“Student Spaces”，面向学生群体，支持免登录使用。该工具集成多模态解析能力，可处理PDF、Office文档、网页链接及手写笔记等多种格式，提供一站式阅读与资料处理平台。

8.9k 3 小时前

Adobe发布Acrobat Student Spaces:面向学生的免费全流程AI学习工具

MiniMax 搭建一整套 Office Skills，自进化解决文档生成痛点

MiniMax开源办公文档引擎Office Skills，解决AI生成内容不可用问题。该引擎基于MIT协议，支持Word、Excel、PPT和PDF，通过底层重构绕过传统库，实现直接交付标准，提升AI办公实用性。

25.4k 3 小时前

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

谷歌发布Gemini Embedding2多模态嵌入模型，可将文本、图像、视频、音频及PDF统一映射到同一语义空间，简化AI数据处理，提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前，谷歌曾推出支持百种语言的文本嵌入模型。

11.8k 1 小时前

谷歌发布 Gemini Embedding2:原生多模态嵌入模型统一文本、图像与音视频语义空间

AI产品

Predict Anything, but talk to it like ChatGPT

通过AI工作流将文本、PDF等转化为图构建、模拟、报告及后续聊天

效率工具

Coda One

集AI写作、PDF、图像等工具于一体的网页工作空间

效率工具

4.3k

Readio

Readio可让用户用自然AI语音朗读网页、PDF和电子书，支持140+语言。

文本转声音

ai quiz generator

免费AI测验生成器，可从笔记、PDF、图像和YouTube生成测验，无需注册。

学习教育

5.9k

模型

Tomoro Colqwen3 Embed 4b

TomoroAI

TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型，能够将文本查询、视觉文档（如图像、PDF）或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势，在ViDoRe基准测试中表现出色，同时显著减少了嵌入占用空间。

Chandra OCR GGUF

prithivMLmods

Chandra是一款高精度的OCR模型，能够将图像和PDF转换为结构化输出，如Markdown、HTML和JSON，同时保留详细的布局信息。支持40多种语言，擅长处理复杂的文档元素。

多模态

Transformers英语

prithivMLmods

LightOnOCR 1B 1025 GGUF

noctrex

LightOnOCR-1B-1025的量化版本，专门用于图像转文本任务，在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言，适用于OCR、PDF处理和表格识别等场景。

Nanonets OCR2 3B GGUF

Mungert

Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具，能够将各类文档智能转换为结构化的Markdown格式，具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。

Chandra

datalab-to

Chandra是一款先进的OCR模型，能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出，在手写体识别、表单重构、表格处理等方面表现出色，支持40多种语言。

MonkeyOCR Pro 3B

echo840

MonkeyOCR是一款基于结构-识别-关系（SRR）三元范式的文档解析模型，能够高效处理PDF和图像文档，提取文本、公式、表格等结构化内容，支持中英文文档解析。

OlmOCR 7B Thai V1

Adun

olmOCR是一款基于Qwen2-VL-7B-Instruct微调的光学字符识别模型，专注于将PDF等图像内容转换为文本，并通过微调提升特定场景下的识别准确率。

Table Transformer Detection Ifrs

apkonsta

专为国际财务报告准则(IFRS)PDF文档优化的表格检测模型，擅长处理无边框表格

计算机视觉

Transformers

apkonsta

MinerU

kitjesen

该模型能够将PDF文档转换为Markdown格式，保持原始文档排版结构，准确识别数学公式和表格。

Visualheist Large

shixuanleong

VisualHeist是一个目标检测模型，专门用于从PDF文件中提取图表、示意图和表格，包括标题、页眉和页脚。

Nougat Base Deploy

HongxuanLi

Nougat是基于Donut架构的视觉-语言模型，专为将科学类PDF转录为Markdown格式而设计。

多模态

Transformers

HongxuanLi

Layoutreader

hantian

一款阅读顺序预测模型，可将从PDF提取或通过OCR检测的文本框转换为可读顺序。

Nougat Base

Xenova

Nougat是一个基于视觉的学术文档理解模型，能够将科学PDF图像转换为Markdown格式文本。

多模态

Transformers

Xenova

Nougat Small

facebook

Nougat是基于Donut架构的视觉-语言模型，专为将科学PDF转换为Markdown格式而设计。

Nougat Base

facebook

Nougat是基于Donut架构的模型，专为将科学PDF转录为易用Markdown格式而训练

Donut_pdf_ocr

shubh1608

基于图像文件夹数据集训练的OCR模型，用于PDF文档的文本识别

计算机视觉

Transformers

shubh1608

Layoutlm Document Classifier

impira

基于LayoutLM架构微调的文档分类模型，专门用于处理PDF文档特别是发票的分类任务

多模态

Transformers英语

impira

MechDistilGPT2

geralt

基于100多本机械/汽车类PDF书籍文本微调的蒸馏版GPT-2模型，专注于机械工程领域的文本生成任务

自然语言处理

Transformers

geralt

MCP

Markdownify Mcp

Markdownify是一个多功能文件转换服务，支持将PDF、图片、音频等多种格式及网页内容转换为Markdown格式。

typescript

37.3k

5.0分

Pageindex Mcp

PageIndex MCP是一个基于推理的无向量RAG系统，通过MCP协议将文档的树状索引暴露给LLM，使Claude等平台能够像人类专家一样通过结构推理检索PDF文档信息，无需向量数据库。

typescript

11.7k

3.0分

Upstage Mcp Server

Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器，支持从PDF、图片和Office文件中提取结构化内容，并集成Claude Desktop等MCP客户端。

python

10.1k

2.5分

Watsonx Rag Mcp Server

本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器，使用ChromaDB进行向量索引，并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题，实现了将大型语言模型与特定领域知识相结合的智能问答功能。

python

9.4k

2.5分

Berlin Services Mcp Server

一个生产级的柏林城市服务MCP服务器，提供全面的服务查询、PDF表单智能处理、弹性缓存和远程同步功能。

python

7.7k

2.5分

Mcp Reddit Digest

一个基于FastAPI的MCP服务器，自动抓取、总结并推送Reddit内容到Slack。系统利用Azure OpenAI生成精选子版块帖子的摘要，整理为PDF报告并分享给团队。

python

9.2k

2.5分

Mcp For Paper Read Based On Ai Ide

一个基于MCP协议的本地科研论文辅助阅读系统，提供PDF解析、数学公式深度解析、代码生成与可视化功能，支持本地LLM增强和知识管理。

typescript

8.2k

2.5分

Nccn_guidelines_mcp

一个基于模型上下文协议(MCP)的服务器，提供美国国家综合癌症网络(NCCN)临床指南的访问服务。该系统通过直接读取指南PDF内容而非使用RAG技术，确保医疗指导的准确性和可靠性。

python

10.4k

2.5分

Mcp Server Pdfme

MCP服务器PDF处理服务

人工智能聊天机器人

10.1k

2.5分

Markdown2pdf Mcp

一个将Markdown文档转换为PDF文件的MCP服务器，支持语法高亮和自定义样式

typescript

10.7k

2.5分

Pdf2md

基于MCP的高性能PDF转Markdown服务，支持本地文件和URL批量处理，保留文档结构并智能优化输出。

python

10.8k

2.5分

Patent_mcp_server

该项目是一个基于FastMCP的USPTO专利数据访问服务器，支持通过专利公共搜索API和开放数据门户API获取美国专利商标局的专利和专利申请数据，为Claude Desktop等MCP客户端提供专利搜索、全文获取、PDF下载和元数据查询功能。

python

10.3k

2.5分

Agentic Ai Tool Suite

该项目是一个集成了多种功能的MCP服务器套件，包含媒体工具、信息检索、PDF生成和演示文稿创建等服务，需分别配置运行。

typescript

2.5分

Deep_research

Deep Research是一个基于代理的工具，提供网页搜索和高级研究功能，支持PDF分析、图像描述和YouTube转录提取，可作为MCP服务器运行。

python

9.7k

2.5分

Document Edit Mcp

一个为Claude Desktop提供文档操作功能的MCP服务器，支持Word、Excel和PDF文件的创建、编辑与格式转换。

python

12.3k

2.5分

HR Policy Chatbot

该项目构建了一个基于RAG的HR聊天机器人，通过MCP服务器作为功能调用中心，实现PDF文档上传、解析、检索及自然语言问答功能。

python

8.6k

2.5分

Foxit Pdf Api Mcp Server

Foxit PDF API的MCP服务器实现，提供Python和TypeScript版本，将Foxit PDF服务的35+项操作（如创建、转换、编辑、安全、OCR等）暴露为AI代理可用的工具。

python

7.2k

2.5分

Pdf Reader Mcp

一个基于MCP协议的PDF阅读服务，支持从本地文件和URL提取文本内容，提供错误处理和标准化输出。

python

21.9k

2.5分

RagChatbot_MCPServer

该项目构建了一个基于RAG的HR聊天机器人，通过MCP服务器作为功能调用中心，实现PDF文档上传、解析、检索及自然语言问答功能。

python

9.2k

2.5分

Parseflow

ParseFlow是一个AI驱动的全能文档解析库，支持PDF、Word、Excel、PPT和图片OCR，提供语义搜索和批量处理功能，并包含MCP服务器供AI助手使用。

智启未来，您的人工智能解决方案智库

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商务合作网站地图