2025年5月20日、百度のPaddleOCRチームはバージョン3.0を公開し、それを一般に開放しました。この新しいバージョンは、テキスト認識精度、多言語サポート、手書き文字認識、そして高精度なドキュメント分析において大きな進展を遂げており、PaddleOCRの技術的性能とOCR分野における応用価値をさらに向上させています。

発表以来、PaddleOCRはその科学的な先進的なアルゴリズムと実践的な実装により、研究および産業分野で非常に人気を集め、多くの有名なオープンソースプロジェクトに統合されています。公開されたバージョン3.0は、公式バージョン3.0のPaddlePaddleとも完全に互換性があります。テキスト認識精度の改善に加え、異なる種類のテキストや手書き文字の認識をサポートし、複雑なドキュメント分析をより正確に行うことができます。また、文心一言バージョン4.5Turboとの組み合わせで、重要な情報の抽出精度が向上し、国産ハードウェア(KunlunチップやAscendなど)への対応も追加されました。

WeChat_Screenshot_20250522090536.png

PaddleOCR 3.0の核となる特徴の一つは、PP-OCRv5という包括的なテキスト認識モデルです。このモデルは、簡体字中国語、繁体字中国語、中国語のアクセント、英語、日本語の5つのテキストタイプ、さらには手書き、縦書き、アクセント、希少文字などを含む複雑なテキスト状況の認識を可能にします。前バージョンと比較して全体的な精度が13ポイント向上し、業界トップクラスの位置を獲得しました。統一されたモデルアーキテクチャにより、さまざまなテキストタイプをスムーズに認識でき、インストールを簡素化し、精度と速度を向上させました。

ドキュメント分析の領域では、PaddleOCR 3.0はPP-StructureV3という汎用的なドキュメント解析方法を導入しました。この方法はレイアウト、テーブル、数式の認識能力を強化し、図表の解析やマルチカラムドキュメントの読書順序復元機能を追加しています。さらに、結果はMarkdownやJSON形式に変換できます。PP-StructureV3は多くのオープンソースおよびクローズドループシステムをベンチマークOmniDocBenchを超え、多様なドキュメントフォーマットの高精度分析でその力を示しています。

WeChat_Screenshot_20250522090722.png

さらに、PaddleOCR 3.0はPP-ChatOCRv4という知的ドキュメント理解方法を発表しました。この方法は文心一言バージョン4.5Turboをネイティブサポートし、前バージョン比で重要な情報抽出の精度を15ポイント向上させました。PP-ChatOCRv4は大規模モデルと小規模モデルの利点を組み合わせ、マルチモーダルドキュメント理解モデルPP-DocBee2のオフライン使用をサポートし、レイアウト解析、希少文字、マルチページPDF、テーブル、スタンプなどの複雑なドキュメント情報を単一ステップで抽出します。

PaddleOCR 3.0の公開は、百度がOCR技術で継続的に革新を続けていることを反映するとともに、開発者にさらなる強力で使いやすいツールを提供し、AIアプリケーションの迅速な実装を支援しています。

オープンソースアドレス:

https://github.com/PaddlePaddle/PaddleOCR