10月16日,百度飞桨发布视觉语言模型PaddleOCR-VL,以0.9B参数在权威评测OmniDocBench V1.5中获92.56分,超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日,Huggingface趋势榜前三均为OCR模型,百度飞桨位列第一。
特斯拉前高管Andrej Karpathy评论开源OCR论文时提出,图像可能比文本更适合作为大语言模型的输入方式。他认为当前文本token输入效率低下,建议未来研究转向图像输入,这一观点在AI社区引发热议。
DeepSeek公司推出新型OCR模型DeepSeek-OCR,采用端到端视觉语言架构,通过将长文本压缩为少量视觉标记再解码实现高效文档解析。该模型在Fox基准测试中达到97%解码精度,在10倍压缩比下性能稳定,20倍压缩时仍保持良好表现。
DeepSeek发布创新OCR模型DeepSeek-OCR,引入"视觉记忆压缩"机制,模仿人类视觉记忆方式,将长文本信息压缩到图像中处理。这一突破性技术旨在解决大型语言模型处理超长上下文时计算资源激增的难题,在图像文档解析方面达到顶级性能,让AI实现高效"看图阅读"。
Dogacel
这是一个基于原始DeepSeek-OCR模型的优化版本,专门支持在苹果金属性能着色器(MPS)和CPU上进行推理的OCR模型。它能够从图像中提取文本并转换为结构化格式,支持多语言文档识别。
strangervisionhf
这是一个基于DeepSeek-OCR的图像文本识别模型,专门解决了在最新版本transformers库中的兼容性问题,使模型能够在transformers v4.57.1等最新版本中顺利运行。
sanchezalonsodavid17
这是DeepSeek-OCR的模态平衡量化(MBQ)变体,通过对视觉编码器采用4位NF4量化减少内存占用,同时保持投影器和语言/解码器的BF16精度,可在普通GPU上进行本地部署和快速CPU试验。
mlx-community
DeepSeek-OCR-8bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化的视觉语言模型,支持多语言OCR识别和图像文本理解任务。
DeepSeek-OCR-6bit是基于DeepSeek-OCR模型转换的MLX格式版本,专门针对苹果芯片优化。这是一个视觉语言模型,具备强大的光学字符识别能力,能够从图像中提取和识别文本信息。
quocnguyen
该模型是基于DeepSeek-OCR转换的MLX格式视觉语言模型,专门用于光学字符识别(OCR)任务,支持多语言文本识别和图像理解
这是一个基于DeepSeek-OCR模型转换的MLX格式模型,支持多语言图像文本识别和文本生成功能,专门针对OCR任务优化。
Jalea96
DeepSeek-OCR-bnb-4bit-NF4 是 deepseek-ai/DeepSeek-OCR 的 4 位 NF4 量化版本,使用 bitsandbytes 创建。它在保持高精度的同时,显著减少了显存使用量(最多可减少至 8GB),非常适合消费级 GPU。
deepseek-ai
DeepSeek-OCR是DeepSeek AI开发的一款先进的光学字符识别模型,专注于探索视觉文本压缩的边界,能够高效地从图像中提取和转换文本内容。