Mistral AIが新たに発表したOCR3は、表やスキャン文書、複雑な表、手書き文字の認識に優れ、前世代比74%性能向上。多様な文書からテキストと画像を高精度で抽出し、処理効率と精度を大幅に向上させます。....
腾讯混元が10億パラメータのOCRモデルHunyuanOCRをオープンソース化。マルチモーダルアーキテクチャを基に、複数タスクで最先端の性能を実現し、多様なシーンでの文字認識をサポート。....
腾讯が1BパラメータのオープンソースOCRモデル「HunyuanOCR」を発表。混元マルチモーダルアーキテクチャを基に、SOTA性能を達成。エンドツーエンド設計で、高解像度ビデオエンコーダー・適応型視覚適応・軽量言語モデルの3要素を統合。....
騰訊混元が10億パラメータを持つオープンソースのOCRモデルHunyuanOCRをリリースしました。エンドツーエンド設計で、動画エンコーダー、ビジュアルアダプター、軽量言語モデルを統合しており、複数のランキングでSOTAの成績を収めています。サイズが小さく、導入が簡単なことが主な優位点であり、効率的なOCRソリューションを提供します。
PDFファイルをMarkdown形式に高速で変換し、元のスタイルを保持します。
世界初の深層学習を駆動するオンラインOCRツールで、97%の正確性。
強力なドキュメント変換ツールで、画像およびPDFをLaTeXなどの形式に変換できます。
手動で請求書情報を入力するのをやめましょう。InvoiceClipのAI OCRは、レシート、請求書、公共料金の請求書を即座にスキャンし、整然とした正確なエクスポート可能なデータを提供します。
Alibaba
$2
入力トークン/百万
$20
出力トークン/百万
-
コンテキスト長
Baidu
32
Minimax
$3
$9
128
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
nvidia
NVIDIA Nemotron Parse v1.1は、文書の意味を理解し、空間的な位置情報を持つテキストや表の要素を抽出するために特別に開発された先進的な文書解析モデルです。非構造化文書を機械が読み取り可能な構造化表現に変換し、従来のOCRが複雑な文書レイアウトを処理する際の限界を克服します。
prithivMLmods
Chandraは高精度のOCRモデルで、画像やPDFをMarkdown、HTML、JSONなどの構造化出力に変換することができ、詳細なレイアウト情報を保持します。40種類以上の言語をサポートし、複雑なドキュメント要素の処理に長けています。
strangervisionhf
これはDeepSeek - OCRに基づく画像テキスト認識モデルで、最新バージョンのtransformersライブラリでの互換性問題を特別に解決し、モデルがtransformers v4.57.1などの最新バージョンでスムーズに動作できるようにします。
noctrex
LightOnOCR-1B-1025は画像からテキストへのOCRモデルで、1Bのパラメータ規模を持ち、imatrix量子化による最適化を行っており、画像からテキスト内容を抽出および認識するために特別に設計されています。
LightOnOCR-1B-1025の量子化バージョンで、画像からテキストへの変換タスクに特化しており、文書理解やビジュアル言語処理などの分野で広く利用されています。このモデルは複数の欧州言語をサポートし、OCR、PDF処理、表認識などのシナリオに適しています。
mlx-community
DeepSeek-OCR-8bitは、DeepSeek-OCRモデルを変換したMLX形式のバージョンで、Appleチップに特化して最適化されたビジュアル言語モデルで、多言語OCR認識と画像テキスト理解タスクをサポートします。
quocnguyen
このモデルはDeepSeek-OCRを基に変換されたMLX形式のビジュアル言語モデルで、光学文字認識(OCR)タスクに特化しており、多言語のテキスト認識と画像理解をサポートします。
これはDeepSeek-OCRモデルを変換したMLX形式のモデルで、多言語の画像テキスト認識とテキスト生成機能をサポートし、OCRタスクに特化して最適化されています。
Mungert
Nanonets-OCR2-1.5B-exp GGUFは強力な画像からMarkdownへのOCRモデルで、ドキュメントを構造化されたMarkdown形式に変換し、インテリジェントコンテンツ認識とセマンティックマーキングを行い、多言語のドキュメント処理をサポートします。
richardyoung
olmOCR-2-7B-1025はAllenAIによって開発された高品質のOCR視覚言語モデルで、文書や画像内の文字認識タスクを専門に処理するためのものです。このリポジトリでは、Q8_0量子化方式を用いたGGUF量子化バージョンを提供しており、モデルサイズを小さくしながらも優れた精度を維持しています。
impresso-project
Impresso NERモデルは、歴史文書の処理に特化した多言語の固有表現認識モデルです。スタック型Transformerアーキテクチャに基づいており、デジタル化された歴史テキスト中の細粒度および粗粒度のエンティティタイプ(人名、肩書き、場所など)を認識することができます。このモデルは、歴史文書中のOCRノイズ、スペルの変化、非標準的な言語の使い方に対して最適化されています。
Nanonets-OCR2-3B GGUFモデルは、文書処理用に設計された強力なツールで、さまざまな文書をスマートに構造化されたMarkdown形式に変換でき、OCR、画像からのテキスト変換、PDFからのMarkdown変換、ビジュアル質問応答など、さまざまな高度な識別と処理能力を備えています。
rtr46
meiki.text.detect.v0.1は、ビデオゲームや漫画のテキスト検出に特化した高精度、低遅延のOCRモデルで、日本語関連の内容で優れた性能を発揮します。このモデルはD - FINE検出器アーキテクチャに基づき、MobileNet v4 smallをバックボーンネットワークとして使用し、異なるアプリケーションシーンに対応するために2種類の解像度バリエーションを提供します。
datalab-to
Chandraは高度なOCRモデルで、画像やPDFから高精度でテキストを抽出し、レイアウト情報を保持することができます。Markdown、HTML、JSON形式の出力をサポートし、手書き文字認識、フォーム再構築、表処理などで優れた性能を発揮し、40種類以上の言語をサポートします。
DevQuasar
これはnanonets/Nanonets - OCR2 - 3Bモデルの量子化バージョンで、知識を誰もが利用できるようにすることを目指しています。プロジェクトはCivoの支援を受けており、テキスト生成に特化したOCRモデルです。
AhmedZaky1
DIMIアラビア語OCR v2は、アラビア語のテキスト認識に特化して最適化された光学式文字認識モデルです。Qwen2.5-VL-7B-Instructをベースに微調整して開発され、v1バージョンに比べて変音符が密集したテキストの処理能力が大幅に向上しています。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
WeightedAI
ペルシア語OCRは、ペルシア語テキストに特化して設計された光学文字認識のディープラーニングモデルです。CNN+トランスフォーマーアーキテクチャを採用し、60万枚の合成ペルシア語テキスト画像を含むデータセットでトレーニングされ、シーケンスの正解率は96%に達しています。
MaaFrameworkに基づくMCPサーバーで、AIアシスタントにAndroidデバイスとWindowsデスクトップの自動化機能を提供し、OCR認識、クリック、スライド、テキスト入力などの操作をサポートし、操作プロセスを再利用可能なPipelineに変換できます。
Florence-2に基づくMCP画像処理サービス
手書きOCRのMCPサーバー
RapidOCRに基づくMCPサーバーで、便利なOCRインターフェースサービスを提供します。
ddddocrに基づくCAPTCHA識別MCPサーバーで、テキストOCR、物体検出、スライダーマッチング機能を提供します。
Foxit PDF APIのMCPサーバーの実装で、PythonとTypeScriptのバージョンが提供され、Foxit PDFサービスの35以上の操作(作成、変換、編集、セキュリティ、OCRなど)をAIエージェントが使用できるツールとして公開します。
xAI Grok APIに基づくMCPサーバーで、AI画像分析機能を提供し、URLとローカルファイルの画像記述、メタデータ抽出、OCR文字認識をサポートします。
MCPサーバーはウェブページ内容の取得機能を提供し、ブラウザ自動化、OCR、および多様な方法による内容抽出をサポートし、LLMがJavaScriptレンダリングやクロール防止対策が施されたウェブページの内容を取得して処理するのを支援します。
TextIn MCP Serverは文書テキスト抽出とOCRツールで、画像、PDF、Wordからテキストを認識し、重要な情報を抽出し、Markdown形式に変換することができます。
Mistral AIのOCRサービスに基づき、ローカルファイルとURLの画像とテキストの認識をサポートします。
Archive Agentは、自然言語によるファイル検索と質問に対応したインテリジェントなファイルインデックスツールです。AI検索(RAGエンジン)、自動OCR、MCPインターフェースを組み合わせ、テキスト、ドキュメント、PDF、画像などのさまざまなファイルタイプを処理できます。
これはreMarkableタブレットのMCPサーバーで、AIアシスタントがあなたのreMarkableライブラリ全体を読み取り、検索し、走査できるようにします。OCRを通じた手書きノートの認識を含み、タブレットをAIがアクセス可能な「第二の脳」に変えます。
画像認識機能を提供するMCPサーバーで、AnthropicとOpenAIのビジョンAPIをサポートし、画像説明、複数形式のサポート、主備えのサービスプロバイダーの設定、OCRテキスト抽出機能を備えています。
手書きOCRのMCPサーバーで、文書アップロード、状態確認、テキスト取得機能を提供します。
ニュートリエントDWS MCPサーバーは、ニュートリエントドキュメントWebサービスプロセッサAPIと統合されたモデルコンテキストプロトコルサーバーで、AIアシスタントに強力なPDF処理機能を提供します。デジタル署名、ドキュメント生成、編集、OCR、透かし、塗りつぶしなどの操作が可能です。
コンピュータ制御機能を提供するMCPサーバーで、マウスとキーボードの制御、OCR認識、ウィンドウ管理などが含まれ、PyAutoGUIとRapidOCRに基づいて実現され、外部依存関係はありません。
スクリーンショットとOCRテキスト認識機能を提供するMCPサーバー
コンピュータ制御機能を提供するMCPサーバーで、マウス・キーボード制御、スクリーンショット、OCR文字認識などが含まれ、クロスプラットフォームで動作し、外部依存が不要です。
ParseFlow は AI 駆動の全能ドキュメント解析ライブラリで、PDF、Word、Excel、PPT、画像 OCR をサポートし、意味検索と一括処理機能を提供し、AI アシスタントが使用する MCP サーバーを含んでいます。
手書きOCRのMCPサーバーで、手書きOCR APIとの統合を実現し、画像/PDFドキュメントのアップロード、状態の確認、およびOCR認識結果の取得をサポートします。