10月16日,百度飛槳發佈視覺語言模型PaddleOCR-VL,以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分,超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日,Huggingface趨勢榜前三均爲OCR模型,百度飛槳位列第一。
特斯拉前高管Andrej Karpathy評論開源OCR論文時提出,圖像可能比文本更適合作爲大語言模型的輸入方式。他認爲當前文本token輸入效率低下,建議未來研究轉向圖像輸入,這一觀點在AI社區引發熱議。
DeepSeek公司推出新型OCR模型DeepSeek-OCR,採用端到端視覺語言架構,通過將長文本壓縮爲少量視覺標記再解碼實現高效文檔解析。該模型在Fox基準測試中達到97%解碼精度,在10倍壓縮比下性能穩定,20倍壓縮時仍保持良好表現。
DeepSeek發佈創新OCR模型DeepSeek-OCR,引入"視覺記憶壓縮"機制,模仿人類視覺記憶方式,將長文本信息壓縮到圖像中處理。這一突破性技術旨在解決大型語言模型處理超長上下文時計算資源激增的難題,在圖像文檔解析方面達到頂級性能,讓AI實現高效"看圖閱讀"。
Dogacel
這是一個基於原始DeepSeek-OCR模型的優化版本,專門支持在蘋果金屬性能著色器(MPS)和CPU上進行推理的OCR模型。它能夠從圖像中提取文本並轉換為結構化格式,支持多語言文檔識別。
strangervisionhf
這是一個基於DeepSeek-OCR的圖像文本識別模型,專門解決了在最新版本transformers庫中的兼容性問題,使模型能夠在transformers v4.57.1等最新版本中順利運行。
sanchezalonsodavid17
這是DeepSeek-OCR的模態平衡量化(MBQ)變體,通過對視覺編碼器採用4位NF4量化減少內存佔用,同時保持投影器和語言/解碼器的BF16精度,可在普通GPU上進行本地部署和快速CPU試驗。
mlx-community
DeepSeek-OCR-8bit是基於DeepSeek-OCR模型轉換的MLX格式版本,專門針對蘋果芯片優化的視覺語言模型,支持多語言OCR識別和圖像文本理解任務。
DeepSeek-OCR-6bit是基於DeepSeek-OCR模型轉換的MLX格式版本,專門針對蘋果芯片優化。這是一個視覺語言模型,具備強大的光學字符識別能力,能夠從圖像中提取和識別文本信息。
quocnguyen
該模型是基於DeepSeek-OCR轉換的MLX格式視覺語言模型,專門用於光學字符識別(OCR)任務,支持多語言文本識別和圖像理解
這是一個基於DeepSeek-OCR模型轉換的MLX格式模型,支持多語言圖像文本識別和文本生成功能,專門針對OCR任務優化。
Jalea96
DeepSeek-OCR-bnb-4bit-NF4 是 deepseek-ai/DeepSeek-OCR 的 4 位 NF4 量化版本,使用 bitsandbytes 創建。它在保持高精度的同時,顯著減少了顯存使用量(最多可減少至 8GB),非常適合消費級 GPU。
deepseek-ai
DeepSeek-OCR是DeepSeek AI開發的一款先進的光學字符識別模型,專注於探索視覺文本壓縮的邊界,能夠高效地從圖像中提取和轉換文本內容。