谷歌推出Gemini“Notebooks”功能,打造个人知识库,帮助用户高效处理复杂项目。该功能打通了Gemini与NotebookLM的数据壁垒,构建闭环AI工作流。用户可在集成空间集中管理聊天记录、文档和PDF,导入历史对话并通过自定义指令引导Gemini进行智能分析。
Adobe推出免费AI学习工具“Student Spaces”,面向学生群体,支持免登录使用。该工具集成多模态解析能力,可处理PDF、Office文档、网页链接及手写笔记等多种格式,提供一站式阅读与资料处理平台。
MiniMax开源办公文档引擎Office Skills,解决AI生成内容不可用问题。该引擎基于MIT协议,支持Word、Excel、PPT和PDF,通过底层重构绕过传统库,实现直接交付标准,提升AI办公实用性。
谷歌发布Gemini Embedding2多模态嵌入模型,可将文本、图像、视频、音频及PDF统一映射到同一语义空间,简化AI数据处理,提升多模态检索与理解能力。这标志着谷歌从单一文本嵌入迈向统一多模态语义建模。此前,谷歌曾推出支持百种语言的文本嵌入模型。
通过AI工作流将文本、PDF等转化为图构建、模拟、报告及后续聊天
集AI写作、PDF、图像等工具于一体的网页工作空间
Readio可让用户用自然AI语音朗读网页、PDF和电子书,支持140+语言。
免费AI测验生成器,可从笔记、PDF、图像和YouTube生成测验,无需注册。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先进的ColPali风格多模态嵌入模型,能够将文本查询、视觉文档(如图像、PDF)或短视频映射为对齐的多向量嵌入。该模型结合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的优势,在ViDoRe基准测试中表现出色,同时显著减少了嵌入占用空间。
prithivMLmods
Chandra是一款高精度的OCR模型,能够将图像和PDF转换为结构化输出,如Markdown、HTML和JSON,同时保留详细的布局信息。支持40多种语言,擅长处理复杂的文档元素。
noctrex
LightOnOCR-1B-1025的量化版本,专门用于图像转文本任务,在文档理解、视觉语言处理等领域有广泛应用。该模型支持多种欧洲语言,适用于OCR、PDF处理和表格识别等场景。
Mungert
Nanonets-OCR2-3B GGUF模型是专为文档处理设计的强大工具,能够将各类文档智能转换为结构化的Markdown格式,具备OCR、图像转文本、PDF转Markdown以及视觉问答等多种先进识别和处理能力。
datalab-to
Chandra是一款先进的OCR模型,能够从图像和PDF中高精度提取文本并保留布局信息。它支持Markdown、HTML和JSON格式输出,在手写体识别、表单重构、表格处理等方面表现出色,支持40多种语言。
echo840
MonkeyOCR是一款基于结构-识别-关系(SRR)三元范式的文档解析模型,能够高效处理PDF和图像文档,提取文本、公式、表格等结构化内容,支持中英文文档解析。
Adun
olmOCR是一款基于Qwen2-VL-7B-Instruct微调的光学字符识别模型,专注于将PDF等图像内容转换为文本,并通过微调提升特定场景下的识别准确率。
apkonsta
专为国际财务报告准则(IFRS)PDF文档优化的表格检测模型,擅长处理无边框表格
kitjesen
该模型能够将PDF文档转换为Markdown格式,保持原始文档排版结构,准确识别数学公式和表格。
shixuanleong
VisualHeist是一个目标检测模型,专门用于从PDF文件中提取图表、示意图和表格,包括标题、页眉和页脚。
HongxuanLi
Nougat是基于Donut架构的视觉-语言模型,专为将科学类PDF转录为Markdown格式而设计。
hantian
一款阅读顺序预测模型,可将从PDF提取或通过OCR检测的文本框转换为可读顺序。
Xenova
Nougat是一个基于视觉的学术文档理解模型,能够将科学PDF图像转换为Markdown格式文本。
facebook
Nougat是基于Donut架构的视觉-语言模型,专为将科学PDF转换为Markdown格式而设计。
Nougat是基于Donut架构的模型,专为将科学PDF转录为易用Markdown格式而训练
shubh1608
基于图像文件夹数据集训练的OCR模型,用于PDF文档的文本识别
impira
基于LayoutLM架构微调的文档分类模型,专门用于处理PDF文档特别是发票的分类任务
geralt
基于100多本机械/汽车类PDF书籍文本微调的蒸馏版GPT-2模型,专注于机械工程领域的文本生成任务
Markdownify是一个多功能文件转换服务,支持将PDF、图片、音频等多种格式及网页内容转换为Markdown格式。
PageIndex MCP是一个基于推理的无向量RAG系统,通过MCP协议将文档的树状索引暴露给LLM,使Claude等平台能够像人类专家一样通过结构推理检索PDF文档信息,无需向量数据库。
Upstage MCP Server是一个连接AI助手与Upstage AI文档处理API的服务器,支持从PDF、图片和Office文件中提取结构化内容,并集成Claude Desktop等MCP客户端。
本项目构建了一个基于IBM Watsonx.ai的检索增强生成(RAG)服务器,使用ChromaDB进行向量索引,并通过模型上下文协议(MCP)暴露接口。该系统能够处理PDF文档并基于文档内容回答问题,实现了将大型语言模型与特定领域知识相结合的智能问答功能。
一个生产级的柏林城市服务MCP服务器,提供全面的服务查询、PDF表单智能处理、弹性缓存和远程同步功能。
一个基于FastAPI的MCP服务器,自动抓取、总结并推送Reddit内容到Slack。系统利用Azure OpenAI生成精选子版块帖子的摘要,整理为PDF报告并分享给团队。
一个基于MCP协议的本地科研论文辅助阅读系统,提供PDF解析、数学公式深度解析、代码生成与可视化功能,支持本地LLM增强和知识管理。
一个基于模型上下文协议(MCP)的服务器,提供美国国家综合癌症网络(NCCN)临床指南的访问服务。该系统通过直接读取指南PDF内容而非使用RAG技术,确保医疗指导的准确性和可靠性。
MCP服务器PDF处理服务
一个将Markdown文档转换为PDF文件的MCP服务器,支持语法高亮和自定义样式
基于MCP的高性能PDF转Markdown服务,支持本地文件和URL批量处理,保留文档结构并智能优化输出。
该项目是一个基于FastMCP的USPTO专利数据访问服务器,支持通过专利公共搜索API和开放数据门户API获取美国专利商标局的专利和专利申请数据,为Claude Desktop等MCP客户端提供专利搜索、全文获取、PDF下载和元数据查询功能。
该项目是一个集成了多种功能的MCP服务器套件,包含媒体工具、信息检索、PDF生成和演示文稿创建等服务,需分别配置运行。
Deep Research是一个基于代理的工具,提供网页搜索和高级研究功能,支持PDF分析、图像描述和YouTube转录提取,可作为MCP服务器运行。
一个为Claude Desktop提供文档操作功能的MCP服务器,支持Word、Excel和PDF文件的创建、编辑与格式转换。
该项目构建了一个基于RAG的HR聊天机器人,通过MCP服务器作为功能调用中心,实现PDF文档上传、解析、检索及自然语言问答功能。
Foxit PDF API的MCP服务器实现,提供Python和TypeScript版本,将Foxit PDF服务的35+项操作(如创建、转换、编辑、安全、OCR等)暴露为AI代理可用的工具。
一个基于MCP协议的PDF阅读服务,支持从本地文件和URL提取文本内容,提供错误处理和标准化输出。
ParseFlow是一个AI驱动的全能文档解析库,支持PDF、Word、Excel、PPT和图片OCR,提供语义搜索和批量处理功能,并包含MCP服务器供AI助手使用。