百度PaddleOCR登顶GitHub全球OCR开源项目榜首,超越Tesseract等老牌项目,标志着中国深度学习框架在垂直技术领域具备国际领先影响力。其成功源于超轻量模型与全栈技术能力,提供了从算法到部署的完整解决方案。
10月16日,百度飞桨发布视觉语言模型PaddleOCR-VL,以0.9B参数在权威评测OmniDocBench V1.5中获92.56分,超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日,Huggingface趋势榜前三均为OCR模型,百度飞桨位列第一。
谷歌Gemini 3.0 Pro模型开始小范围推送,强化推理和多模态处理能力,预计本月底正式发布。DeepMind团队持续优化AI性能,助力开发者把握技术趋势。
百度开源多模态文档解析模型PaddleOCR-VL,在OmniBenchDoc V1.5评测中以92.6分获全球第一。该模型仅0.9B参数,轻量高效,能精准识别文本、手写汉字、表格、公式及图表,四大核心能力表现卓越。
即用即走的翻译、OCR工具
轻量级OCR模型,推理速度快
pcuenq
PaddleOCR-VL-0.9B 是一个基于 PaddlePaddle 框架开发的视觉语言模型,专门用于图像文本到文本的转换任务。该模型复刻自 PaddlePaddle 官方版本,支持从图像中提取和识别文本内容。
PaddlePaddle
PaddleOCR团队开发的最新一代英文文本行识别模型,专为高效、准确的英文OCR识别而设计,在移动端设备上具有优异的性能表现。
PaddleOCR团队开发的PP-OCRv3_rec系列中的天城文专用文本行识别模型,支持天城文识别,平均准确率96.44%。
PP-OCRv4_server_rec 是 PaddleOCR 团队开发的 PP-OCRv4_rec 系列中的一个文本行识别模型,支持一般中文和英文场景下的文本行识别,主要侧重于中文。
PaddleOCR团队开发的超轻量级英文文本行识别模型,支持英文和数字字符识别
PP-OCRv3_mobile_rec 是 PaddleOCR 团队开发的轻量级文本行识别模型,采用 SVTR 算法,支持中英文识别,尤其专注于中文场景。
由PaddleOCR团队开发的超轻量级日语文本行识别模型,支持日语和数字字符识别。
PP-FormulaNet_plus-M 是由 PaddleOCR 团队开发的增强版公式识别模型,支持中文公式识别,并提升了对复杂公式的处理能力。
由PaddleOCR团队开发的超轻量级西里尔文文本行识别模型,基于PP-OCRv3_mobile_rec训练,专门针对西里尔文优化
PP-OCRv4_mobile_rec 是 PaddleOCR 团队开发的轻量级文本行识别模型,专注于中文和英文场景下的高效文本识别。
PP-FormulaNet_plus-L 是 PaddleOCR 团队开发的增强版公式识别模型,支持中文公式识别,最大标记数提升至2560,适用于复杂公式场景。
PaddleOCR团队开发的超轻量级拉丁语文本行识别模型,支持拉丁语和数字字符识别。
PP-OCRv4_mobile_det 是由 PaddleOCR 团队开发的针对移动设备优化的高效文本检测模型,适合边缘设备部署。
PaddleOCR团队开发的超轻量级阿拉伯字母识别模型,支持阿拉伯字母和数字字符识别。
PP-OCRv4_server_det 是 PaddleOCR 团队开发的文本检测模型,适用于高性能服务器部署,具有高准确率。
PP-OCRv5_mobile_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型,支持简体中文、繁体中文、英文和日文四种语言的识别,适用于多种复杂文本场景。
PP-OCRv5_server_rec 是 PaddleOCR 团队开发的最新一代文本行识别模型,支持多语言和复杂文本场景的识别。
PP-OCRv5_mobile_det是PaddleOCR团队研发的最新一代轻量级文本检测模型,支持多语言、多场景下的高效文本检测。
PP-OCRv5_server_det 是 PaddleOCR 团队研发的最新一代文本检测模型,专为高性能应用场景设计,支持检测多种场景下的文本,包括手写、竖排、旋转和弯曲文本,可识别多种语言。