騰訊混元開源10億參數OCR模型HunyuanOCR,基於多模態架構,在多項任務中實現領先性能,支持多場景文字識別應用。
騰訊發佈1B參數開源模型HunyuanOCR,基於混元多模態架構,在OCR應用中達到SOTA水平。模型採用端到端設計,一次推理即可獲得最優結果,包含原生分辨率視頻編碼器、自適應視覺適配和輕量化混元語言三大核心組件。
騰訊混元開源10億參數OCR模型HunyuanOCR,採用端到端設計,集成視頻編碼器、視覺適配器和輕量化語言模型,在多項榜單獲SOTA成績,以體積小、部署便捷爲核心優勢,提供高效OCR解決方案。
10月16日,百度飛槳發佈視覺語言模型PaddleOCR-VL,以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分,超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日,Huggingface趨勢榜前三均爲OCR模型,百度飛槳位列第一。
快速將 PDF 文件轉換為 Markdown 格式,保留原始樣式。
全球首個由深度學習驅動的在線 OCR 工具,97% 準確率。
強大的文檔轉換工具,支持圖像和 PDF 轉換為 LaTeX 等格式。
停止手動輸入發票信息。InvoiceClip的AI OCR可即時掃描收據、賬單和公用事業發票,提供整潔、準確、可導出的數據。
Alibaba
$2
輸入tokens/百萬
$20
輸出tokens/百萬
-
上下文長度
Baidu
32
Minimax
$3
$9
128
Dogacel
這是一個基於原始DeepSeek-OCR模型的優化版本,專門支持在蘋果金屬性能著色器(MPS)和CPU上進行推理的OCR模型。它能夠從圖像中提取文本並轉換為結構化格式,支持多語言文檔識別。
tencent
混元OCR是由混元原生多模態架構驅動的端到端OCR專家VLM模型,僅用10億參數的輕量級設計,在多個行業基準測試中取得最先進成績。該模型擅長處理複雜的多語言文檔解析,在文本定位、開放域信息提取、視頻字幕提取和圖片翻譯等實際應用場景中表現出色。
nvidia
NVIDIA Nemotron Parse v1.1 是一款先進的文檔解析模型,專門用於理解文檔語義並提取具有空間定位的文本和表格元素。它能夠將非結構化文檔轉換為機器可讀的結構化表示,克服了傳統OCR在處理複雜文檔佈局時的侷限性。
prithivMLmods
Chandra是一款高精度的OCR模型,能夠將圖像和PDF轉換為結構化輸出,如Markdown、HTML和JSON,同時保留詳細的佈局信息。支持40多種語言,擅長處理複雜的文檔元素。
noctrex
LightOnOCR-1B-1025是基於圖像到文本的OCR模型,採用1B參數規模,經過imatrix量化優化,專門用於從圖像中提取和識別文本內容。
LightOnOCR-1B-1025的量化版本,專門用於圖像轉文本任務,在文檔理解、視覺語言處理等領域有廣泛應用。該模型支持多種歐洲語言,適用於OCR、PDF處理和表格識別等場景。
mlx-community
DeepSeek-OCR-8bit是基於DeepSeek-OCR模型轉換的MLX格式版本,專門針對蘋果芯片優化的視覺語言模型,支持多語言OCR識別和圖像文本理解任務。
quocnguyen
該模型是基於DeepSeek-OCR轉換的MLX格式視覺語言模型,專門用於光學字符識別(OCR)任務,支持多語言文本識別和圖像理解
這是一個基於DeepSeek-OCR模型轉換的MLX格式模型,支持多語言圖像文本識別和文本生成功能,專門針對OCR任務優化。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款強大的圖像到markdown的OCR模型,能夠將文檔轉換為結構化的markdown格式,並進行智能內容識別和語義標記,支持多語言文檔處理。
richardyoung
olmOCR-2-7B-1025是由AllenAI開發的高質量OCR視覺語言模型,專門用於處理文檔、圖像中的文字識別任務。本倉庫提供其GGUF量化版本,採用Q8_0量化方式,在減小模型大小的同時保持了出色的準確性。
impresso-project
Impresso NER模型是一個專門用於歷史文檔處理的多語言命名實體識別模型。基於堆疊式Transformer架構,能夠識別數字化歷史文本中的細粒度和粗粒度實體類型,包括人名、頭銜、地點等。該模型針對歷史文檔中的OCR噪聲、拼寫變化和非標準語言用法進行了優化。
Nanonets-OCR2-3B GGUF模型是專為文檔處理設計的強大工具,能夠將各類文檔智能轉換為結構化的Markdown格式,具備OCR、圖像轉文本、PDF轉Markdown以及視覺問答等多種先進識別和處理能力。
rtr46
meiki.text.detect.v0.1是專門針對視頻遊戲和漫畫文本檢測的高精度、低延遲OCR模型,在日語相關內容上表現優異。該模型基於D-FINE檢測器架構,採用MobileNet v4 small作為骨幹網絡,提供兩種分辨率變體以適應不同應用場景。
datalab-to
Chandra是一款先進的OCR模型,能夠從圖像和PDF中高精度提取文本並保留佈局信息。它支持Markdown、HTML和JSON格式輸出,在手寫體識別、表單重構、表格處理等方面表現出色,支持40多種語言。
DevQuasar
這是nanonets/Nanonets-OCR2-3B模型的量化版本,致力於讓知識為每個人所用。項目得到了Civo的支持,是一個專注於文本生成的OCR模型。
AhmedZaky1
DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型,基於Qwen2.5-VL-7B-Instruct微調開發,在變音符密集文本處理方面相比v1版本有顯著改進
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
WeightedAI
波斯語OCR是一個專門針對波斯語文本設計的光學字符識別深度學習模型,採用CNN+變壓器架構,在包含60萬張合成波斯語文本圖像的數據集上訓練,序列準確率達到96%。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的視覺語言模型,專注於光學字符識別(OCR)和文檔分析。該模型採用GGUF格式,支持多語言處理,具備出色的OCR精度和推理速度,適用於各種文檔處理場景。
Nutrient DWS MCP Server是一個與Nutrient文檔Web服務處理器API集成的模型上下文協議服務器,為AI助手提供強大的PDF處理功能,包括數字簽名、文檔生成、編輯、OCR、水印、塗黑等操作。
Archive Agent 是一個智能文件索引工具,支持通過自然語言搜索和提問文件內容。它結合了AI搜索(RAG引擎)、自動OCR和MCP接口,能夠處理多種文件類型,包括文本、文檔、PDF和圖像。
TextIn MCP Server是一個文檔文本提取和OCR工具,支持從圖片、PDF和Word中識別文本、提取關鍵信息並轉換為Markdown格式。
一個提供計算機控制功能的MCP服務器,包括鼠標鍵盤控制、屏幕截圖、OCR文字識別等,支持跨平臺運行,無需外部依賴。
基於Florence-2的MCP圖像處理服務
基於Mistral AI的OCR服務,支持本地文件和URL的圖文識別
一個提供圖像識別功能的MCP服務器,支持Anthropic和OpenAI的視覺API,具備圖像描述、多格式支持、可配置主備服務商及OCR文本提取功能。
一個基於xAI Grok API的MCP服務器,提供AI圖像分析功能,支持URL和本地文件的圖像描述、元數據提取和OCR文字識別
基於RapidOCR的MCP服務器,提供便捷的OCR接口服務
MCP服務器提供網頁內容抓取功能,支持瀏覽器自動化、OCR和多方法內容提取,幫助LLM獲取並處理需要JavaScript渲染或防爬取的網頁內容。
手寫OCR的MCP服務端,提供文檔上傳、狀態檢查和文本獲取功能
一個提供計算機控制功能的MCP服務器,包括鼠標鍵盤控制、OCR識別、窗口管理等,基於PyAutoGUI和RapidOCR實現,無外部依賴。
手寫OCR的MCP服務端
一個提供屏幕截圖和OCR文本識別功能的MCP服務器
項目包含MCP和REST兩種API,MCP接口服務於Claude等客戶端,REST接口用於報表和自動化任務。當前功能包括郵箱搜索和OCR處理,下一步將實現PDF附件處理和結構化輸出。
Lizeur是一個基於MCP協議的PDF內容提取服務器,利用Mistral AI的OCR技術將PDF轉換為易讀的markdown文本,支持智能緩存和快速集成。
Paperless MCP是一個開源的現代化文檔管理系統,旨在為企業提供高效的數字文檔處理解決方案,包括存儲、組織、搜索和處理文檔,支持OCR、元數據提取和自動分類等功能,同時確保安全性和合規性。
Odoo MCP服務器提供對Odoo 18.0的高安全JSON-RPC訪問和OCR文檔解析的Extract API接口,支持模型查詢、記錄操作和文檔提取功能。
基於OpenAI視覺模型的OCR服務,集成Cursor IDE實現圖片文字自動提取與保存
手寫OCR的MCP服務端,實現與Handwriting OCR API的集成,支持上傳圖片/PDF文檔、檢查狀態和獲取OCR識別結果。