腾讯混元が10億パラメータのOCRモデルHunyuanOCRをオープンソース化。マルチモーダルアーキテクチャを基に、複数タスクで最先端の性能を実現し、多様なシーンでの文字認識をサポート。....
腾讯が1BパラメータのオープンソースOCRモデル「HunyuanOCR」を発表。混元マルチモーダルアーキテクチャを基に、SOTA性能を達成。エンドツーエンド設計で、高解像度ビデオエンコーダー・適応型視覚適応・軽量言語モデルの3要素を統合。....
騰訊混元が10億パラメータを持つオープンソースのOCRモデルHunyuanOCRをリリースしました。エンドツーエンド設計で、動画エンコーダー、ビジュアルアダプター、軽量言語モデルを統合しており、複数のランキングでSOTAの成績を収めています。サイズが小さく、導入が簡単なことが主な優位点であり、効率的なOCRソリューションを提供します。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。