ds4sd
这是一个256M参数的预览版文档理解模型,专为文档结构解析和内容提取任务设计,支持将图像文档转换为结构化数据。
docling-project
SmolDocling-256M-preview-mlx-bf16 是一个基于 SmolDocling-256M-preview 转换的轻量级视觉语言模型,专门用于文档图像理解和转换。该模型使用 MLX 框架进行优化,支持将文档图像转换为结构化的 DocTags 格式。
ahishamm
该模型是从 ds4sd/SmolDocling-256M-preview 转换为 MLX 格式的视觉语言模型,支持图像文本到文本任务。
SmolDocling是一款超紧凑的多模态视觉语言模型,专门为高效的文档转换而设计。该模型基于Idefics3架构,在256M参数规模下实现了强大的文档理解能力,支持从图像中提取文本、表格、公式、代码等多种文档元素,并与Docling生态系统完全兼容。