最好的OCR模型 AI工具模型_精選OCR模型資訊

AI資訊

智譜發佈0.9B 輕量級 GLM-OCR:性能登頂，千次處理僅需0.1元

智譜開源專業OCR模型GLM-OCR，僅0.9B參數實現跨級性能突破。在OmniDocBench V1.5榜單中以94.6分奪冠，逼近通用大模型Gemini-3-Pro，有效解決複雜文檔解析痛點。

DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

DeepSeek發佈全新視覺編碼器DeepSeek OCR2，在文檔處理和圖像識別領域取得突破。該模型模擬人類視覺的靈活掃描模式，顛覆傳統視覺模型處理邏輯。通過引入全新架構，棄用傳統CLIP組件，採用輕量級語言模型，實現了根據內容靈活聚焦的特性。

15.8k 1 天前

DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

Mistral AI 發佈新版文檔識別技術 Mistral OCR 3 模型

Mistral AI發佈新一代文檔識別技術Mistral OCR3，在表格、掃描文檔、複雜表格及手寫識別方面表現突出，整體性能較上一代提升74%。該技術旨在高效準確提取各類文檔中的文本和嵌入式圖像，支持多格式處理，顯著提升文檔處理效率與精度。

17.1k 昨天

AI日報：豆包輸入法正式上線；混元開源HunyuanOCR模型；Claude Opus4.5發佈

騰訊混元開源10億參數OCR模型HunyuanOCR，基於多模態架構，在多項任務中實現領先性能，支持多場景文字識別應用。

23.5k 02-19

AI日報：豆包輸入法正式上線；混元開源HunyuanOCR模型；Claude Opus4.5發佈

AI產品

Aya Vision 32B

Aya Vision 32B 是一個支持多語言的視覺語言模型，適用於OCR、圖像描述、視覺推理等多種用途。

AI模型

10.4k

Aya Vision 8B

8億參數的多語言視覺語言模型，支持OCR、圖像描述、視覺推理等功能

AI模型

11.1k

Ollama OCR for web

一個強大的OCR包，使用最先進的視覺語言模型提取圖像中的文本。

圖片編輯

14.9k

mPLUG-DocOwl 1.5

OCR-free 文檔理解的統一結構學習模型

研究工具

9.7k

模型

Gemini 2.0 Flash-Lite

Google

$0.49

輸入tokens/百萬

$2.1

輸出tokens/百萬

上下文長度

GPT-4.1 mini

Openai

$2.8

輸入tokens/百萬

$11.2

輸出tokens/百萬

上下文長度

Grok 4 Fast

Xai

$1.4

輸入tokens/百萬

$3.5

輸出tokens/百萬

上下文長度

o3-mini

Openai

$7.7

輸入tokens/百萬

$30.8

輸出tokens/百萬

200

上下文長度

GPT-5 Codex

Openai

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Claude 3 Opus

Anthropic

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

Gemini 2.0 Flash

Google

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

上下文長度

Claude Haiku 4.5

Anthropic

輸入tokens/百萬

$35

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash

Google

$2.1

輸入tokens/百萬

$17.5

輸出tokens/百萬

上下文長度

Claude Sonnet 4.5

Anthropic

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Claude 3 Sonnet

Anthropic

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

Gemini 2.5 Flash-Lite

Google

$0.7

輸入tokens/百萬

$2.8

輸出tokens/百萬

上下文長度

qwen3-vl-plus

Alibaba

輸入tokens/百萬

$10

輸出tokens/百萬

256

上下文長度

wan2.5-i2i-preview

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-max

Alibaba

輸入tokens/百萬

$24

輸出tokens/百萬

256

上下文長度

qwen-image-plus

Alibaba

輸入tokens/百萬

輸出tokens/百萬

上下文長度

qwen3-vl-235b-a22b-thinking

Alibaba

輸入tokens/百萬

$20

輸出tokens/百萬

上下文長度

qwen3-coder-plus

Alibaba

輸入tokens/百萬

$16

輸出tokens/百萬

上下文長度

Qianfan-Lightning

Baidu

輸入tokens/百萬

輸出tokens/百萬

128

上下文長度

Doubao-Seed-Translation

Bytedance

$1.2

輸入tokens/百萬

$3.6

輸出tokens/百萬

上下文長度

MCP

Nutrient Dws Mcp Server

Nutrient DWS MCP Server是一個與Nutrient文檔Web服務處理器API集成的模型上下文協議服務器，為AI助手提供強大的PDF處理功能，包括數字簽名、文檔生成、編輯、OCR、水印、塗黑等操作。

typescript

6.2k

2.5分

Odoo Mcp Server Unofficial

Odoo MCP服務器提供對Odoo 18.0的高安全JSON-RPC訪問和OCR文檔解析的Extract API接口，支持模型查詢、記錄操作和文檔提取功能。

python

2.0分

Openai Ocr Mcp

基於OpenAI視覺模型的OCR服務，集成Cursor IDE實現圖片文字自動提取與保存

typescript

10.4k

2.0分

File Ai Mcp

fileAI MCP服務器提供端到端的文件處理解決方案，包括OCR、文檔分類和結構化數據提取，支持AI模型集成和異步處理。

智啟未來，您的人工智能解決方案智庫

友情链接:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

商務合作網站地圖

AI資訊

智譜發佈0.9B 輕量級 GLM-OCR:性能登頂，千次處理僅需0.1元

​DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro

Mistral AI 發佈新版文檔識別技術 Mistral OCR 3 模型

AI日報：豆包輸入法正式上線；混元開源HunyuanOCR模型；Claude Opus4.5發佈

AI產品

Aya Vision 32B

Aya Vision 8B

Ollama OCR for web

mPLUG-DocOwl 1.5

模型

Gemini 2.0 Flash-Lite

GPT-4.1 mini

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-vl-plus

wan2.5-i2i-preview

qwen3-max

qwen-image-plus

qwen3-vl-235b-a22b-thinking

qwen3-coder-plus

Qianfan-Lightning

Doubao-Seed-Translation

DeepSeek OCR Metal MPS

HunyuanOCR

NVIDIA Nemotron Parse V1.1

Chandra OCR GGUF

LightOnOCR 1B 1025 I1 GGUF

LightOnOCR 1B 1025 GGUF

DeepSeek OCR 8bit

DeepSeek OCR Bf16 Mlx

DeepSeek OCR 4bit

Nanonets OCR2 1.5B Exp GGUF

OlmOCR 2 7B 1025 GGUF

Ner Stacked Bert Multilingual V1.1.0

Nanonets OCR2 3B GGUF

Meiki.text.detect.v0

Chandra

Nanonets.Nanonets OCR2 3B GGUF

DIMI Arabic OCR V2

OlmOCR 2 7B 1025 FP8

Persian_OCR

MonkeyOCR Pro 1.2B Vision GGUF

MCP

Nutrient Dws Mcp Server

Odoo Mcp Server Unofficial

Openai Ocr Mcp

File Ai Mcp

DeepSeek 發佈 OCR 2：視覺 Token 消耗銳減 80%，文檔解析力超越 Gemini 3 Pro