Adobe於5月6日推出Acrobat新功能PDF Spaces,將靜態PDF轉化爲互動AI工作空間。用戶可整合文檔、鏈接、筆記等內容,利用AI生成摘要和演示文稿,實現信息分享與利用的全新方式。
谷歌推出Gemini“Notebooks”功能,打造個人知識庫,幫助用戶高效處理複雜項目。該功能打通了Gemini與NotebookLM的數據壁壘,構建閉環AI工作流。用戶可在集成空間集中管理聊天記錄、文檔和PDF,導入歷史對話並通過自定義指令引導Gemini進行智能分析。
Adobe推出免費AI學習工具“Student Spaces”,面向學生羣體,支持免登錄使用。該工具集成多模態解析能力,可處理PDF、Office文檔、網頁鏈接及手寫筆記等多種格式,提供一站式閱讀與資料處理平臺。
MiniMax開源辦公文檔引擎Office Skills,解決AI生成內容不可用問題。該引擎基於MIT協議,支持Word、Excel、PPT和PDF,通過底層重構繞過傳統庫,實現直接交付標準,提升AI辦公實用性。
一款單頁簡歷生成器,支持Markdown編寫、預覽、分享和導出PDF
免費在線合併PDF,本地處理,無需上傳、註冊和加水印
最簡單的AI家譜圖生成器,可文本描述或上傳圖像,秒建、分析並導出PDF。
專業的在線PDF編輯器,可輕鬆完成編輯、合併、簽名等操作。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4b是一款先進的ColPali風格多模態嵌入模型,能夠將文本查詢、視覺文檔(如圖像、PDF)或短視頻映射為對齊的多向量嵌入。該模型結合了Qwen3-VL-4B-Instruct和Qwen3-Embedding-4B的優勢,在ViDoRe基準測試中表現出色,同時顯著減少了嵌入佔用空間。
prithivMLmods
Chandra是一款高精度的OCR模型,能夠將圖像和PDF轉換為結構化輸出,如Markdown、HTML和JSON,同時保留詳細的佈局信息。支持40多種語言,擅長處理複雜的文檔元素。
noctrex
LightOnOCR-1B-1025的量化版本,專門用於圖像轉文本任務,在文檔理解、視覺語言處理等領域有廣泛應用。該模型支持多種歐洲語言,適用於OCR、PDF處理和表格識別等場景。
Mungert
Nanonets-OCR2-3B GGUF模型是專為文檔處理設計的強大工具,能夠將各類文檔智能轉換為結構化的Markdown格式,具備OCR、圖像轉文本、PDF轉Markdown以及視覺問答等多種先進識別和處理能力。
datalab-to
Chandra是一款先進的OCR模型,能夠從圖像和PDF中高精度提取文本並保留佈局信息。它支持Markdown、HTML和JSON格式輸出,在手寫體識別、表單重構、表格處理等方面表現出色,支持40多種語言。
echo840
MonkeyOCR是一款基於結構-識別-關係(SRR)三元範式的文檔解析模型,能夠高效處理PDF和圖像文檔,提取文本、公式、表格等結構化內容,支持中英文文檔解析。
Adun
olmOCR是一款基於Qwen2-VL-7B-Instruct微調的光學字符識別模型,專注於將PDF等圖像內容轉換為文本,並通過微調提升特定場景下的識別準確率。
apkonsta
專為國際財務報告準則(IFRS)PDF文檔優化的表格檢測模型,擅長處理無邊框表格
kitjesen
該模型能夠將PDF文檔轉換為Markdown格式,保持原始文檔排版結構,準確識別數學公式和表格。
shixuanleong
VisualHeist是一個目標檢測模型,專門用於從PDF文件中提取圖表、示意圖和表格,包括標題、頁眉和頁腳。
HongxuanLi
Nougat是基於Donut架構的視覺-語言模型,專為將科學類PDF轉錄為Markdown格式而設計。
hantian
一款閱讀順序預測模型,可將從PDF提取或通過OCR檢測的文本框轉換為可讀順序。
Xenova
Nougat是一個基於視覺的學術文檔理解模型,能夠將科學PDF圖像轉換為Markdown格式文本。
facebook
Nougat是基於Donut架構的視覺-語言模型,專為將科學PDF轉換為Markdown格式而設計。
Nougat是基於Donut架構的模型,專為將科學PDF轉錄為易用Markdown格式而訓練
shubh1608
基於圖像文件夾數據集訓練的OCR模型,用於PDF文檔的文本識別
impira
基於LayoutLM架構微調的文檔分類模型,專門用於處理PDF文檔特別是發票的分類任務
geralt
基於100多本機械/汽車類PDF書籍文本微調的蒸餾版GPT-2模型,專注於機械工程領域的文本生成任務
Markdownify是一個多功能文件轉換服務,支持將PDF、圖片、音頻等多種格式及網頁內容轉換為Markdown格式。
PageIndex MCP是一個基於推理的無向量RAG系統,通過MCP協議將文檔的樹狀索引暴露給LLM,使Claude等平臺能夠像人類專家一樣通過結構推理檢索PDF文檔信息,無需向量數據庫。
Nutrient DWS MCP Server是一個與Nutrient文檔Web服務處理器API集成的模型上下文協議服務器,為AI助手提供強大的PDF處理功能,包括數字簽名、文檔生成、編輯、OCR、水印、塗黑等操作。
MCP開發框架是一個用於創建與大語言模型交互自定義工具的強大框架,提供文件處理、網頁內容獲取等功能,支持PDF、Word、Excel等多種格式,具有智能識別、高效處理和內存優化等技術特點。
一個基於MarkItDown工具的MCP服務器,支持將PDF、PPT、Word等多種文件格式轉換為Markdown格式。
PDF內容提取服務
一個基於Python的MCP服務器,利用Pandoc提供強大的文檔轉換功能,支持多種格式間的轉換,如Markdown、DOCX、HTML、PDF等,適合與AI代理集成使用。
一個為Claude Desktop提供文檔操作功能的MCP服務器,支持Word、Excel和PDF文件的創建、編輯與格式轉換。
一個生產級的柏林城市服務MCP服務器,提供全面的服務查詢、PDF表單智能處理、彈性緩存和遠程同步功能。
MCP開發框架是一個用於與大語言模型交互的強大工具集,提供文件處理(PDF/Word/Excel)、網頁內容獲取等功能,支持Cursor IDE擴展,具有智能文件識別、高效處理和內存優化等技術特點。
Rember MCP是一個官方協議服務,允許Claude創建閃卡,幫助用戶通過間隔重複複習來記憶內容。支持從聊天或PDF中生成閃卡,並提供API和桌面客戶端集成。
Markdownify MCP UTF-8增強版是一個支持多語言內容轉換的Markdown處理服務,優化了UTF-8編碼支持,提供PDF/圖片/音視頻/Office文檔等多種格式的Markdown轉換能力,並針對Windows系統進行了特別優化。
一個基於MCP協議的PDF轉PNG服務工具
這是一個基於MCP協議的文檔生成服務器,支持創建DOCX和PDF格式的文檔,提供段落、表格和樣式設置功能,支持STDIO和HTTP兩種傳輸模式,幷包含會話管理功能。
Ebook-MCP是一個基於模型上下文協議(MCP)的電子書處理服務器,支持EPUB和PDF格式,提供智能圖書管理、交互式閱讀體驗和學習輔助功能,實現與電子書的自然語言交互。
DeepZotero是一個為Zotero文獻庫提供語義搜索功能的工具。它通過提取PDF中的文本、表格和圖像,進行分塊、嵌入並存儲在ChromaDB中,最終通過MCP服務器向Claude Code等客戶端提供13種語義搜索、布爾搜索、表格/圖像搜索、上下文擴展、引文圖查詢、索引管理和成本跟蹤工具。
該項目是一個基於FastMCP的USPTO專利數據訪問服務器,支持通過專利公共搜索API和開放數據門戶API獲取美國專利商標局的專利和專利申請數據,為Claude Desktop等MCP客戶端提供專利搜索、全文獲取、PDF下載和元數據查詢功能。
Zed的PDF語義搜索擴展,集成AI助手增強文檔處理能力
Archive Agent 是一個智能文件索引工具,支持通過自然語言搜索和提問文件內容。它結合了AI搜索(RAG引擎)、自動OCR和MCP接口,能夠處理多種文件類型,包括文本、文檔、PDF和圖像。
一個通過MCP協議從AWS S3獲取PDF等數據的服務實現