最好的OCR AI工具模型_精選OCR資訊 - AIBase

AI資訊

法國 AI 初創企業 Mistral AI 發佈 OCR4模型:覆蓋170種語言，交互體驗更人性化

法國Mistral AI推出OCR4文檔識別模型，支持跨越10個語族的170種語言。該模型在OmniDocBench測試中獲93.07分，輸出準確自然，用戶體驗優於GPT5.5Pro和Gemini3.1Pro。

14.3k 10 分鐘前

法國 AI 初創企業 Mistral AI 發佈 OCR4模型:覆蓋170種語言，交互體驗更人性化

Mistral AI發佈OCR4 模型：支持 170 種語言，輸出質量超越GPT與Gemini

法國Mistral AI發佈文檔識別模型OCR 4，支持10個語族170種語言，在權威測試獲93.07分，輸出質量經人類評審優於GPT-5.5 Pro等競品。該模型小巧全面，覆蓋多場景任務，專精文檔識別。

14.5k 10 分鐘前

Mistral AI發佈OCR4 模型：支持 170 種語言，輸出質量超越GPT與Gemini

通義千問升級“拍照問健康”:能圈圖、懂推理，三甲醫生實測認可

阿里旗下通義千問APP於2026年5月27日升級“拍照問健康”功能，突破傳統OCR限制，實現醫學圖像理解與臨牀推理。新功能包括視覺圈選，可自動標記化驗單或患處異常區域；以及聯動推理，結合年齡、性別和多指標關聯進行排除法分析，提升診斷準確性。

通義千問升級“拍照問健康”:能圈圖、懂推理，三甲醫生實測認可

AI日報：字節聯合港科大發布MMProLong；騰訊ima宣佈開放Copilot；紅果短劇取消AI仿真人短劇保底政策

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解：https://app.aibase.com/zh1、字節跳動聯合港科大發布MMProLong：長文檔LMM訓練問答對效率遠超OCR轉錄字節跳動與港科大聯合發佈的MMProLong模型，在多模態大語言模型的長文檔訓練中取得了突破性進展。該實驗室還將爲新加坡創造200多個技術崗位，助力其成爲全球AI樞紐。

26.2k 12 小時前

AI日報：字節聯合港科大發布MMProLong；騰訊ima宣佈開放Copilot；紅果短劇取消AI仿真人短劇保底政策

AI產品

Hand OCR

Hand OCR

基於先進AI技術的在線OCR工具，可將圖片與PDF快速識別並轉換為可編輯文本。

語音轉文本

Describe Image

Describe Image

AI驅動，將圖像和視頻轉化為描述、OCR、Alt文本等多種形式

HandOCR

HandOCR

免費在線AI OCR，秒速將圖片轉換為可編輯文本，準確安全。

PDF 轉 Markdown 轉換器

PDF 轉 Markdown 轉換器

快速將 PDF 文件轉換為 Markdown 格式，保留原始樣式。

模型

qwen3-vl-235b-a22b-thinking

Alibaba

qwen3-vl-235b-a22b-thinking

$2

輸入tokens/百萬

$20

輸出tokens/百萬

-

上下文長度

Qianfan-VL-70B

Baidu

Qianfan-VL-70B

-

輸入tokens/百萬

-

輸出tokens/百萬

32

上下文長度

Qianfan-VL-8B

Baidu

Qianfan-VL-8B

-

輸入tokens/百萬

-

輸出tokens/百萬

32

上下文長度

Qianfan-QI-VL

Baidu

Qianfan-QI-VL

-

輸入tokens/百萬

-

輸出tokens/百萬

32

上下文長度

QianfanHuijin-8B

Baidu

QianfanHuijin-8B

-

輸入tokens/百萬

-

輸出tokens/百萬

32

上下文長度

Qianfan-Llama-VL-8B

Baidu

Qianfan-Llama-VL-8B

-

輸入tokens/百萬

-

輸出tokens/百萬

32

上下文長度

MiniMax Hailuo-02 512P

Minimax

MiniMax Hailuo-02 512P

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

ERNIE 4.5 Turbo VL

Baidu

ERNIE 4.5 Turbo VL

$3

輸入tokens/百萬

$9

輸出tokens/百萬

128

上下文長度

MCP

maamcp

Maamcp

基於MaaFramework的MCP服務器，為AI助手提供Android設備和Windows桌面自動化能力，支持OCR識別、點擊、滑動、文本輸入等操作，並能將操作流程轉換為可複用的Pipeline。

nutrient-dws-mcp-server

Nutrient Dws Mcp Server

Nutrient DWS MCP Server是一個與Nutrient文檔Web服務處理器API集成的模型上下文協議服務器，為AI助手提供強大的PDF處理功能，包括數字簽名、文檔生成、編輯、OCR、水印、塗黑等操作。

ragstack-lambda

Ragstack Lambda

RAGStack-Lambda是一個基於AWS Lambda的無服務器AI文檔與媒體處理平臺，支持上傳文檔、圖片、視頻和音頻，通過OCR、轉錄和向量化技術構建知識庫，並提供帶來源追溯的AI聊天功能。採用按需付費的零閒置成本架構。

textin-mcp

Textin Mcp

TextIn MCP Server是一個文檔文本提取和OCR工具，支持從圖片、PDF和Word中識別文本、提取關鍵信息並轉換為Markdown格式。

archive-agent

Archive Agent

Archive Agent 是一個智能文件索引工具，支持通過自然語言搜索和提問文件內容。它結合了AI搜索（RAG引擎）、自動OCR和MCP接口，能夠處理多種文件類型，包括文本、文檔、PDF和圖像。

native-devtools-mcp

Native Devtools Mcp

native-devtools-mcp 是一個跨平臺的 MCP 服務器，為 AI 代理提供對 macOS、Windows 和 Android 系統的自動化控制能力，包括屏幕截圖、OCR 文字識別、模擬點擊輸入、窗口管理以及 Android 設備控制。

mcp-florence2

Mcp Florence2

基於Florence-2的MCP圖像處理服務

Computer Control

Computer Control

一個提供計算機控制功能的MCP服務器，包括鼠標鍵盤控制、屏幕截圖、OCR文字識別等，支持跨平臺運行，無需外部依賴。

ddddocr-captcha-mcp

Ddddocr Captcha Mcp

基於ddddocr的CAPTCHA識別MCP服務器，提供文本OCR、目標檢測和滑塊匹配功能

foxit-pdf-api-mcp-server

Foxit Pdf Api Mcp Server

Foxit PDF API的MCP服務器實現，提供Python和TypeScript版本，將Foxit PDF服務的35+項操作（如創建、轉換、編輯、安全、OCR等）暴露為AI代理可用的工具。

mcp-image-recognition

Mcp Image Recognition

一個提供圖像識別功能的MCP服務器，支持Anthropic和OpenAI的視覺API，具備圖像描述、多格式支持、可配置主備服務商及OCR文本提取功能。

mcp-mistral-ocr

Mcp Mistral Ocr

基於Mistral AI的OCR服務，支持本地文件和URL的圖文識別

remarkable-mcp

Remarkable Mcp

這是一個reMarkable平板電腦的MCP服務器，讓AI助手能夠讀取、搜索和遍歷你的整個reMarkable庫，包括通過OCR識別手寫筆記，將平板變成AI可訪問的“第二大腦”。

parseflow

Parseflow

ParseFlow是一個AI驅動的全能文檔解析庫，支持PDF、Word、Excel、PPT和圖片OCR，提供語義搜索和批量處理功能，幷包含MCP服務器供AI助手使用。

image-description-mcp_server

Image Description Mcp_server

一個基於xAI Grok API的MCP服務器，提供AI圖像分析功能，支持URL和本地文件的圖像描述、元數據提取和OCR文字識別

fetch-mcp-server-y8a

Fetch Mcp Server Y8a

MCP服務器提供網頁內容抓取功能，支持瀏覽器自動化、OCR和多方法內容提取，幫助LLM獲取並處理需要JavaScript渲染或防爬取的網頁內容。

Handwriting OCR MCP server

Handwriting OCR MCP server

手寫OCR的MCP服務端，提供文檔上傳、狀態檢查和文本獲取功能

rapidocr-mcp

Rapidocr Mcp

基於RapidOCR的MCP服務器，提供便捷的OCR接口服務

macOS Screenshot

MacOS Screenshot

一個提供屏幕截圖和OCR文本識別功能的MCP服務器

handwriting-ocr-mcp-server

Handwriting Ocr Mcp Server

手寫OCR的MCP服務端

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖