ds4sd
これは256Mパラメータのプレビュー版文書理解モデルで、文書構造解析と内容抽出タスク向けに設計されており、画像文書を構造化データに変換できます。
docling-project
SmolDocling-256M-preview-mlx-bf16は、SmolDocling-256M-previewを基に変換された軽量の視覚言語モデルで、文書画像の理解と変換に特化しています。このモデルはMLXフレームワークを使用して最適化され、文書画像を構造化されたDocTags形式に変換することをサポートしています。
ahishamm
このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
SmolDoclingは、超コンパクトなマルチモーダルビジュアル言語モデルで、効率的なドキュメント変換用に特別に設計されています。このモデルはIdefics3アーキテクチャに基づいており、256Mのパラメータ規模で強力なドキュメント理解能力を実現しています。画像からテキスト、表、数式、コードなどのさまざまなドキュメント要素を抽出することができ、Doclingエコシステムと完全に互換性があります。