SSShooter團隊推出AI智能電子書解析工具“電子書轉思維導圖”,可將EPUB和PDF格式電子書轉換爲結構化思維導圖和文字總結,幫助讀者輕鬆掌握書籍精華,解決電子書格式限制和信息結構不清晰的問題。
dots.ocr是一款1.7B參數的輕量化多語言文檔解析模型,在OCR領域表現突出。其特點包括:1)輕量高效,處理單頁PDF僅需數秒;2)支持100種語言,低資源語言處理優勢明顯;3)精準識別文檔佈局元素並保持閱讀順序;4)表格和公式解析能力突出,可輸出LaTeX格式。適用於文檔數字化等場景,但在處理複雜表格、圖片內容時仍有侷限。該模型以輕量化設計打破傳統OCR侷限,展現了文檔解析技術的新高度。
騰訊開源文檔理解工具WeKnora,基於大語言模型支持PDF/Word/圖片等多格式處理,具備多模態信息提取與整合能力。其模塊化架構包含文檔解析、向量化處理等核心組件,可實現精準問答和多輪對話,適用於企業知識庫、科研分析等場景。項目地址已公開。
騰訊開源多模態文檔理解工具WeKnora,支持PDF、Word等格式的智能解析與檢索。該工具基於大語言模型,具備文本、表格、圖像等複雜文檔的結構化處理能力,可生成統一語義視圖。其核心優勢包括:1)智能交互支持自然語言問答和多輪對話;2)模塊化架構便於定製開發;3)適用於企業知識庫、科研文獻分析等場景。WeKnora的開源將推動文檔處理智能化發展,項目已在GitHub發佈。
AI發票解析可自動提取發票數據,將PDF和JPEG文檔導出至Excel、ERP或通過API。省時、減少錯誤、簡化AP流程。
AnyParser是首個具有準確性和速度的文檔解析LLM,可從PDF、PowerPoint和圖片中精確提取文本、表格、圖表和佈局信息。
利用視覺語言模型將PDF解析為Markdown。
文件解析器,專為LLMs解析PDF、Docx、PPTx等文檔。
Alibaba
$8
輸入tokens/百萬
-
輸出tokens/百萬
32
上下文長度
Tencent
$3
$9
16
Huawei
128
Openai
$17.5
$70
$18
6
Baidu
Sensetime
$1.5
$4.5
Chatglm
echo840
MonkeyOCR是一款基於結構-識別-關係(SRR)三元範式的文檔解析模型,能夠高效處理PDF和圖像文檔,提取文本、公式、表格等結構化內容,支持中英文文檔解析。
PDF內容提取服務
一個基於Model Context Protocol的arXiv論文檢索服務,提供搜索、獲取論文詳情、按分類檢索及PDF全文提取功能。
該項目構建了一個基於RAG的HR聊天機器人,通過MCP服務器作為功能調用中心,實現PDF文檔上傳、解析、檢索及自然語言問答功能。
一個基於arXiv的論文檢索與內容解析工具,支持智能搜索、PDF獲取和內容解析功能,特別關注AI領域最新論文。
ParseFlow是一個AI驅動的全能文檔解析庫,支持PDF、Word、Excel、PPT和圖片OCR,提供語義搜索和批量處理功能,幷包含MCP服務器供AI助手使用。
Zotero-MCP是一個Python服務器,實現了Model Context Protocol(MCP)與Zotero文獻管理軟件的集成,使AI助手能夠訪問和查詢用戶的Zotero文獻庫。
一個基於MCP協議的本地科研論文輔助閱讀系統,提供PDF解析、數學公式深度解析、代碼生成與可視化功能,支持本地LLM增強和知識管理。
PDF閱讀器MCP服務,為AI代理提供安全、靈活的PDF文件內容提取功能,包括文本、元數據和頁數信息。支持本地和遠程PDF文件,易於集成到MCP環境中。
通過MCP框架增強Claude桌面應用功能的Python工具集
一個基於模型上下文協議(MCP)的服務器,提供美國國家綜合癌症網絡(NCCN)臨床指南的訪問服務。該系統通過直接讀取指南PDF內容而非使用RAG技術,確保醫療指導的準確性和可靠性。
iReader MCP是一個提供互聯網內容讀取和提取工具的MCP服務器,支持網頁、YouTube視頻、推特線程和PDF文件的文本提取。
一個通過分析PDF文檔輔助用戶學習的服務,提供文件轉換、內容組織和問題生成功能。
Lizeur是一個基於MCP協議的PDF內容提取服務器,利用Mistral AI的OCR技術將PDF轉換為易讀的markdown文本,支持智能緩存和快速集成。
NetMind ParsePro是一個高質量、穩健且成本高效的PDF解析AI服務,可將PDF文件轉換為JSON或Markdown格式,並支持與AI代理無縫集成。
GROBID MCP服務器項目
一個基於PDF文檔分析的智能學習輔助系統,提供文檔轉換、內容組織和問題生成功能,幫助用戶高效學習。
pdffigures2-MCP-Server是一個基於pdffigures2的MCP服務,用於從學術PDF中提取圖表、表格、標題和章節標題。
Unpaywall MCP服務器是一個基於模型上下文協議的工具服務器,提供通過DOI獲取學術論文元數據、搜索文章標題、獲取開放獲取全文鏈接以及下載和提取PDF文本的功能。
一個用於解析廣告營銷行業中Media Kit PDF文件關鍵內容的項目,通過集成MCP服務實現自動化處理。