Mistral AI發佈新一代文檔識別技術Mistral OCR3,在表格、掃描文檔、複雜表格及手寫識別方面表現突出,整體性能較上一代提升74%。該技術旨在高效準確提取各類文檔中的文本和嵌入式圖像,支持多格式處理,顯著提升文檔處理效率與精度。
騰訊混元開源10億參數OCR模型HunyuanOCR,基於多模態架構,在多項任務中實現領先性能,支持多場景文字識別應用。
騰訊發佈1B參數開源模型HunyuanOCR,基於混元多模態架構,在OCR應用中達到SOTA水平。模型採用端到端設計,一次推理即可獲得最優結果,包含原生分辨率視頻編碼器、自適應視覺適配和輕量化混元語言三大核心組件。
騰訊混元開源10億參數OCR模型HunyuanOCR,採用端到端設計,集成視頻編碼器、視覺適配器和輕量化語言模型,在多項榜單獲SOTA成績,以體積小、部署便捷爲核心優勢,提供高效OCR解決方案。
Aya Vision 32B 是一個支持多語言的視覺語言模型,適用於OCR、圖像描述、視覺推理等多種用途。
8億參數的多語言視覺語言模型,支持OCR、圖像描述、視覺推理等功能
一個強大的OCR包,使用最先進的視覺語言模型提取圖像中的文本。
OCR-free 文檔理解的統一結構學習模型
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
$2
$20
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
Dogacel
這是一個基於原始DeepSeek-OCR模型的優化版本,專門支持在蘋果金屬性能著色器(MPS)和CPU上進行推理的OCR模型。它能夠從圖像中提取文本並轉換為結構化格式,支持多語言文檔識別。
tencent
混元OCR是由混元原生多模態架構驅動的端到端OCR專家VLM模型,僅用10億參數的輕量級設計,在多個行業基準測試中取得最先進成績。該模型擅長處理複雜的多語言文檔解析,在文本定位、開放域信息提取、視頻字幕提取和圖片翻譯等實際應用場景中表現出色。
nvidia
NVIDIA Nemotron Parse v1.1 是一款先進的文檔解析模型,專門用於理解文檔語義並提取具有空間定位的文本和表格元素。它能夠將非結構化文檔轉換為機器可讀的結構化表示,克服了傳統OCR在處理複雜文檔佈局時的侷限性。
prithivMLmods
Chandra是一款高精度的OCR模型,能夠將圖像和PDF轉換為結構化輸出,如Markdown、HTML和JSON,同時保留詳細的佈局信息。支持40多種語言,擅長處理複雜的文檔元素。
noctrex
LightOnOCR-1B-1025是基於圖像到文本的OCR模型,採用1B參數規模,經過imatrix量化優化,專門用於從圖像中提取和識別文本內容。
LightOnOCR-1B-1025的量化版本,專門用於圖像轉文本任務,在文檔理解、視覺語言處理等領域有廣泛應用。該模型支持多種歐洲語言,適用於OCR、PDF處理和表格識別等場景。
mlx-community
DeepSeek-OCR-8bit是基於DeepSeek-OCR模型轉換的MLX格式版本,專門針對蘋果芯片優化的視覺語言模型,支持多語言OCR識別和圖像文本理解任務。
quocnguyen
該模型是基於DeepSeek-OCR轉換的MLX格式視覺語言模型,專門用於光學字符識別(OCR)任務,支持多語言文本識別和圖像理解
這是一個基於DeepSeek-OCR模型轉換的MLX格式模型,支持多語言圖像文本識別和文本生成功能,專門針對OCR任務優化。
Mungert
Nanonets-OCR2-1.5B-exp GGUF 是一款強大的圖像到markdown的OCR模型,能夠將文檔轉換為結構化的markdown格式,並進行智能內容識別和語義標記,支持多語言文檔處理。
richardyoung
olmOCR-2-7B-1025是由AllenAI開發的高質量OCR視覺語言模型,專門用於處理文檔、圖像中的文字識別任務。本倉庫提供其GGUF量化版本,採用Q8_0量化方式,在減小模型大小的同時保持了出色的準確性。
impresso-project
Impresso NER模型是一個專門用於歷史文檔處理的多語言命名實體識別模型。基於堆疊式Transformer架構,能夠識別數字化歷史文本中的細粒度和粗粒度實體類型,包括人名、頭銜、地點等。該模型針對歷史文檔中的OCR噪聲、拼寫變化和非標準語言用法進行了優化。
Nanonets-OCR2-3B GGUF模型是專為文檔處理設計的強大工具,能夠將各類文檔智能轉換為結構化的Markdown格式,具備OCR、圖像轉文本、PDF轉Markdown以及視覺問答等多種先進識別和處理能力。
rtr46
meiki.text.detect.v0.1是專門針對視頻遊戲和漫畫文本檢測的高精度、低延遲OCR模型,在日語相關內容上表現優異。該模型基於D-FINE檢測器架構,採用MobileNet v4 small作為骨幹網絡,提供兩種分辨率變體以適應不同應用場景。
datalab-to
Chandra是一款先進的OCR模型,能夠從圖像和PDF中高精度提取文本並保留佈局信息。它支持Markdown、HTML和JSON格式輸出,在手寫體識別、表單重構、表格處理等方面表現出色,支持40多種語言。
DevQuasar
這是nanonets/Nanonets-OCR2-3B模型的量化版本,致力於讓知識為每個人所用。項目得到了Civo的支持,是一個專注於文本生成的OCR模型。
AhmedZaky1
DIMI阿拉伯語OCR v2是一款專門針對阿拉伯語文本識別優化的光學字符識別模型,基於Qwen2.5-VL-7B-Instruct微調開發,在變音符密集文本處理方面相比v1版本有顯著改進
allenai
olmOCR-2-7B-1025的FP8量化版本,基於Qwen2.5-VL-7B-Instruct微調而來,專門用於處理數學方程、表格等複雜OCR場景的視覺語言模型。
WeightedAI
波斯語OCR是一個專門針對波斯語文本設計的光學字符識別深度學習模型,採用CNN+變壓器架構,在包含60萬張合成波斯語文本圖像的數據集上訓練,序列準確率達到96%。
dinhquangson
MonkeyOCR-pro-1.2B Vision GGUF 是一款高性能的視覺語言模型,專注於光學字符識別(OCR)和文檔分析。該模型採用GGUF格式,支持多語言處理,具備出色的OCR精度和推理速度,適用於各種文檔處理場景。
Nutrient DWS MCP Server是一個與Nutrient文檔Web服務處理器API集成的模型上下文協議服務器,為AI助手提供強大的PDF處理功能,包括數字簽名、文檔生成、編輯、OCR、水印、塗黑等操作。
Odoo MCP服務器提供對Odoo 18.0的高安全JSON-RPC訪問和OCR文檔解析的Extract API接口,支持模型查詢、記錄操作和文檔提取功能。
基於OpenAI視覺模型的OCR服務,集成Cursor IDE實現圖片文字自動提取與保存
fileAI MCP服務器提供端到端的文件處理解決方案,包括OCR、文檔分類和結構化數據提取,支持AI模型集成和異步處理。