10月16日,百度飛槳發佈視覺語言模型PaddleOCR-VL,以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分,超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日,Huggingface趨勢榜前三均爲OCR模型,百度飛槳位列第一。
谷歌Gemini 3.0 Pro模型開始小範圍推送,強化推理和多模態處理能力,預計本月底正式發佈。DeepMind團隊持續優化AI性能,助力開發者把握技術趨勢。
百度開源多模態文檔解析模型PaddleOCR-VL,在OmniBenchDoc V1.5評測中以92.6分獲全球第一。該模型僅0.9B參數,輕量高效,能精準識別文本、手寫漢字、表格、公式及圖表,四大核心能力表現卓越。
pcuenq
PaddleOCR-VL-0.9B 是一個基於 PaddlePaddle 框架開發的視覺語言模型,專門用於圖像文本到文本的轉換任務。該模型復刻自 PaddlePaddle 官方版本,支持從圖像中提取和識別文本內容。