dots.ocrは1.7Bパラメータの軽量多言語文書解析モデル。OCR分野で優れた性能を発揮し、1)軽量で効率的、2)100言語対応、3)レイアウト要素の正確な認識、4)表・数式の解析可能。文書デジタル化に適するが、複雑な表や画像処理に課題あり。....
strangervisionhf
これは修復された画像テキストをテキストに変換するモデルで、元のモデルが最新のTransformersバージョンで推論に失敗する問題を解決しました。このモデルは画像認識とテキスト生成タスクに特化しており、マルチモーダル入力処理をサポートしています。
tcpipuk
dots.ocrは強力な多言語ドキュメント解析器で、レイアウト検出と内容識別を単一のビジョン言語モデルに統合し、17億のパラメータに基づいてSOTA性能を実現し、多言語ドキュメント解析と良好な閲読順序保持をサポートします。