Mistral AIが新たに発表したOCR3は、表やスキャン文書、複雑な表、手書き文字の認識に優れ、前世代比74%性能向上。多様な文書からテキストと画像を高精度で抽出し、処理効率と精度を大幅に向上させます。....
腾讯混元が10億パラメータのOCRモデルHunyuanOCRをオープンソース化。マルチモーダルアーキテクチャを基に、複数タスクで最先端の性能を実現し、多様なシーンでの文字認識をサポート。....
腾讯が1BパラメータのオープンソースOCRモデル「HunyuanOCR」を発表。混元マルチモーダルアーキテクチャを基に、SOTA性能を達成。エンドツーエンド設計で、高解像度ビデオエンコーダー・適応型視覚適応・軽量言語モデルの3要素を統合。....
騰訊混元が10億パラメータを持つオープンソースのOCRモデルHunyuanOCRをリリースしました。エンドツーエンド設計で、動画エンコーダー、ビジュアルアダプター、軽量言語モデルを統合しており、複数のランキングでSOTAの成績を収めています。サイズが小さく、導入が簡単なことが主な優位点であり、効率的なOCRソリューションを提供します。
Aya Vision 32Bは、OCR、画像記述、視覚推論など、多様な用途に適した多言語対応のビジュアル言語モデルです。
8億パラメーターの多言語視覚言語モデルで、OCR、画像キャプション、視覚推論などの機能をサポートしています。
最先端ビジョン言語モデルを用いて画像内のテキストを抽出する、強力なOCRパッケージです。
OCR不要求のドキュメント理解のための統一構造学習モデル
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
Dogacel
これは、元のDeepSeek-OCRモデルをベースにした最適化バージョンで、Appleのメタルパフォーマンスシェーダー(MPS)とCPUでの推論をサポートするOCRモデルです。画像からテキストを抽出し、構造化された形式に変換することができ、多言語のドキュメント認識をサポートします。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
nvidia
NVIDIA Nemotron Parse v1.1は、文書の意味を理解し、空間的な位置情報を持つテキストや表の要素を抽出するために特別に開発された先進的な文書解析モデルです。非構造化文書を機械が読み取り可能な構造化表現に変換し、従来のOCRが複雑な文書レイアウトを処理する際の限界を克服します。
prithivMLmods
Chandraは高精度のOCRモデルで、画像やPDFをMarkdown、HTML、JSONなどの構造化出力に変換することができ、詳細なレイアウト情報を保持します。40種類以上の言語をサポートし、複雑なドキュメント要素の処理に長けています。
strangervisionhf
これはDeepSeek - OCRに基づく画像テキスト認識モデルで、最新バージョンのtransformersライブラリでの互換性問題を特別に解決し、モデルがtransformers v4.57.1などの最新バージョンでスムーズに動作できるようにします。
noctrex
LightOnOCR-1B-1025は画像からテキストへのOCRモデルで、1Bのパラメータ規模を持ち、imatrix量子化による最適化を行っており、画像からテキスト内容を抽出および認識するために特別に設計されています。
LightOnOCR-1B-1025の量子化バージョンで、画像からテキストへの変換タスクに特化しており、文書理解やビジュアル言語処理などの分野で広く利用されています。このモデルは複数の欧州言語をサポートし、OCR、PDF処理、表認識などのシナリオに適しています。
mlx-community
DeepSeek-OCR-8bitは、DeepSeek-OCRモデルを変換したMLX形式のバージョンで、Appleチップに特化して最適化されたビジュアル言語モデルで、多言語OCR認識と画像テキスト理解タスクをサポートします。
quocnguyen
このモデルはDeepSeek-OCRを基に変換されたMLX形式のビジュアル言語モデルで、光学文字認識(OCR)タスクに特化しており、多言語のテキスト認識と画像理解をサポートします。
これはDeepSeek-OCRモデルを変換したMLX形式のモデルで、多言語の画像テキスト認識とテキスト生成機能をサポートし、OCRタスクに特化して最適化されています。
Mungert
Nanonets-OCR2-1.5B-exp GGUFは強力な画像からMarkdownへのOCRモデルで、ドキュメントを構造化されたMarkdown形式に変換し、インテリジェントコンテンツ認識とセマンティックマーキングを行い、多言語のドキュメント処理をサポートします。
richardyoung
olmOCR-2-7B-1025はAllenAIによって開発された高品質のOCR視覚言語モデルで、文書や画像内の文字認識タスクを専門に処理するためのものです。このリポジトリでは、Q8_0量子化方式を用いたGGUF量子化バージョンを提供しており、モデルサイズを小さくしながらも優れた精度を維持しています。
impresso-project
Impresso NERモデルは、歴史文書の処理に特化した多言語の固有表現認識モデルです。スタック型Transformerアーキテクチャに基づいており、デジタル化された歴史テキスト中の細粒度および粗粒度のエンティティタイプ(人名、肩書き、場所など)を認識することができます。このモデルは、歴史文書中のOCRノイズ、スペルの変化、非標準的な言語の使い方に対して最適化されています。
Nanonets-OCR2-3B GGUFモデルは、文書処理用に設計された強力なツールで、さまざまな文書をスマートに構造化されたMarkdown形式に変換でき、OCR、画像からのテキスト変換、PDFからのMarkdown変換、ビジュアル質問応答など、さまざまな高度な識別と処理能力を備えています。
rtr46
meiki.text.detect.v0.1は、ビデオゲームや漫画のテキスト検出に特化した高精度、低遅延のOCRモデルで、日本語関連の内容で優れた性能を発揮します。このモデルはD - FINE検出器アーキテクチャに基づき、MobileNet v4 smallをバックボーンネットワークとして使用し、異なるアプリケーションシーンに対応するために2種類の解像度バリエーションを提供します。
datalab-to
Chandraは高度なOCRモデルで、画像やPDFから高精度でテキストを抽出し、レイアウト情報を保持することができます。Markdown、HTML、JSON形式の出力をサポートし、手書き文字認識、フォーム再構築、表処理などで優れた性能を発揮し、40種類以上の言語をサポートします。
DevQuasar
これはnanonets/Nanonets - OCR2 - 3Bモデルの量子化バージョンで、知識を誰もが利用できるようにすることを目指しています。プロジェクトはCivoの支援を受けており、テキスト生成に特化したOCRモデルです。
AhmedZaky1
DIMIアラビア語OCR v2は、アラビア語のテキスト認識に特化して最適化された光学式文字認識モデルです。Qwen2.5-VL-7B-Instructをベースに微調整して開発され、v1バージョンに比べて変音符が密集したテキストの処理能力が大幅に向上しています。
allenai
olmOCR-2-7B-1025のFP8量子化バージョンで、Qwen2.5-VL-7B-Instructをベースに微調整され、数式や表などの複雑なOCRシーンを処理するためのビジョン言語モデルです。
WeightedAI
ペルシア語OCRは、ペルシア語テキストに特化して設計された光学文字認識のディープラーニングモデルです。CNN+トランスフォーマーアーキテクチャを採用し、60万枚の合成ペルシア語テキスト画像を含むデータセットでトレーニングされ、シーケンスの正解率は96%に達しています。
ニュートリエントDWS MCPサーバーは、ニュートリエントドキュメントWebサービスプロセッサAPIと統合されたモデルコンテキストプロトコルサーバーで、AIアシスタントに強力なPDF処理機能を提供します。デジタル署名、ドキュメント生成、編集、OCR、透かし、塗りつぶしなどの操作が可能です。
Odoo MCPサーバーは、Odoo 18.0への高度なセキュリティのJSON - RPCアクセスとOCRドキュメント解析のExtract APIインターフェイスを提供し、モデル検索、レコード操作、ドキュメント抽出機能をサポートします。
OpenAIのビジュアルモデルに基づくOCRサービスで、Cursor IDEと統合して画像の文字を自動抽出し保存します。
fileAI MCPサーバーは、OCR、文書分類、構造化データ抽出を含むエンドツーエンドのファイル処理ソリューションを提供し、AIモデルの統合と非同期処理をサポートします。
Karakeep(旧称Hoarder)は、自ホスト型の万能ブックマークアプリで、データ収集家向けに設計されています。AI技術を組み合わせて、リンク情報の自動取得、スマートタグ、OCRなどの機能を備え、多プラットフォームのプラグインとモバイルアプリをサポートしています。