OCR 2.0モデル登場!グラフ、幾何学図形、楽譜も編集可能なテキストに変換
最近、研究者らが、GOT(汎用OCR理論)と呼ばれる新しい汎用光学文字認識(OCR)モデルを開発しました。彼らの論文では、「OCR2.0」という概念が初めて提案されており、この新しいモデルは、従来のOCRシステムの長所と大規模言語モデルの強力な機能を組み合わせることを目指しています。GOTのアーキテクチャは非常に高度で、約8000万パラメータの画像エンコーダと500万パラメータのデコーダが含まれています。画像エンコーダは、1024x1024ピクセルの画像を処理できます。