11月25日、テンセント・フンユアンは新規OCRモデル「フンユアンOCR」のオープンソースを正式に発表しました。このモデルはパラメータ数がわずか10億(1B)で、フンユアン独自のマルチモーダルアーキテクチャを基盤としており、業界のさまざまなOCRアプリケーションランキングで最良の成績を収めています。これにより、OCR技術の実用化に向けた軽量かつ効率的な解決策が提供されます。

QQ20251125-145232.png

フンユアンOCRはエンド・トゥ・エンドの設計スタイルを採用しており、オリジナル解像度の動画エンコーダー、自己適応型ビジュアルアダプター、軽量なフンユアン言語モデルから構成されています。その最大の利点は「効率的で使いやすい」ことで、小さなサイズで簡単にデプロイでき、一度のフォワード推論で最適な出力を実現し、業界の連鎖型ソリューションよりもはるかに効率的です。

QQ20251125-145249.png

性能面では、フンユアンOCRは優れた成果を収めています。複雑なドキュメント解析を評価するOmniDocBenchテストでは、グーグルのGemini3-Proなどの先進モデルを上回る94.1点を記録しました。ドキュメント、手書き、ストリートビューなど9つのシナリオをカバーする自社ベンチマークテストでは、文字検出および認識能力が同種のオープンソースおよび商用モデルを大幅に上回っています。OCRBenchランクでは、1Bのパラメータで3B以下のモデルの中で最良の成績を収め、総得点は860点でした。小語種翻訳分野では、14種類の頻繁に使用される小語種と中国語・英語の相互翻訳をサポートしており、ICDAR2025のエンド・トゥ・エンドドキュメント翻訳コンペティションで小規模モデル部門の優勝を獲得しました。

QQ20251125-145300.png

応用シーンにおいて、フンユアンOCRは多言語の複雑なドキュメント解析、領収書のフィールドをJSON形式で抽出、動画の両言語字幕の自動抽出などの機能を実現できます。現在、カード処理、動画制作、国際コミュニケーションなどの分野で活用されています。現在、ユーザーはウェブ端末、モバイル端末のリンク、またはGitHubやHugging Faceのオープンソースアドレスを通じてダウンロードして体験可能です。Hugging Faceスペースに直接アクセスすれば、迅速に試すことができます。