最近、大規模モデルとRAG技術の急速な発展に伴い、構造化データが知的システムにおいてますます重要な価値を示しています。このような背景の下で、ドキュメント画像やPDFなどの非構造化データを正確に構造化データに変換する方法は、業界にとって緊急に解決すべき重要な課題となっています。この現状に対応して、飛騨チームは深い技術蓄積とユーザーのニーズに対する深い洞察に基づき、新一代のドキュメント解析ツールであるPP-StructureV3を発表し、複雑なドキュメント解析問題に対する革新的な解決策を提供しました。

現在、多くのオープンソースソリューションは複雑なドキュメントを処理する際に、テキスト認識が不正確、読み取り順序が混乱したり、テーブルや数式の認識効果が悪いといった多くの挑戦に直面しています。これらの問題は、大規模モデルの微調整データの品質やAIアプリケーションの実装プロセスを大きく制約しています。PP-StructureV3の登場により、このジレンマを打破し、業界に効率的で正確なドキュメント解析体験をもたらすことが期待されています。

微信截图_20250618085356.png

PP-StructureV3は精度と機能面で顕著な優位性を示しています。複数のシナリオやレイアウトに対応し、ドキュメント画像やPDFファイルを高精度に解析でき、ドキュメントをMarkdownやJSON形式にスムーズに変換することが可能です。さらに、OmniDocBenchベンチマークテストでも他のオープンソースおよびクローズドループソリューションを上回る結果を達成しています。また、PP-StructureV3はスタンプ認識、チャート解析、数式や画像を含むテーブル認識、縦書きテキスト解析、中国語数式や化学反応式認識など、専門的な能力も備えており、さまざまなシナリオにおけるAIアプリケーションの実装ニーズに応えています。

アルゴリズム面では、PP-StructureV3は細分化されたモデルコンビネーション戦略を採用しており、異なるモデルの入出力を効率的に調整することで高精度なドキュメント解析を実現しています。ドキュメント画像方向分類、テキスト認識、ページ領域検出、テーブル認識、数式認識、チャート解析など、各サブモジュールについて、飛騨チームは完全な自社開発と詳細な最適化を行っており、解析結果の正確性と信頼性を確保しています。

開発者が簡単に利用できるように、PP-StructureV3は簡易APIを提供しており、ローカルでの推論やサービス化されたデプロイメントもサポートしています。CLI予測やPython APIを通じて、開発者は迅速にドキュメント解析機能を実現し、結果を構造化JSONまたはMarkdown形式で保存することができます。また、PaddleXはPaddleOCRのサービス化されたデプロイメント能力も提供しており、開発者がPP-StructureV3のサービス起動と呼び出しを迅速に行うことができます。

ソリューション紹介:

https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/algorithm/PP-StructureV3/PP-StructureV3.html

使用方法:

https://paddlepaddle.github.io/PaddleOCR/latest/version3.x/pipeline_usage/PP-StructureV3.html