10月16日,百度飞桨发布视觉语言模型PaddleOCR-VL,以0.9B参数在权威评测OmniDocBench V1.5中获92.56分,超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日,Huggingface趋势榜前三均为OCR模型,百度飞桨位列第一。
谷歌Gemini 3.0 Pro模型开始小范围推送,强化推理和多模态处理能力,预计本月底正式发布。DeepMind团队持续优化AI性能,助力开发者把握技术趋势。
百度开源多模态文档解析模型PaddleOCR-VL,在OmniBenchDoc V1.5评测中以92.6分获全球第一。该模型仅0.9B参数,轻量高效,能精准识别文本、手写汉字、表格、公式及图表,四大核心能力表现卓越。
pcuenq
PaddleOCR-VL-0.9B 是一个基于 PaddlePaddle 框架开发的视觉语言模型,专门用于图像文本到文本的转换任务。该模型复刻自 PaddlePaddle 官方版本,支持从图像中提取和识别文本内容。