Le 16 octobre, l'équipe de PaddlePaddle a officiellement lancé le nouveau modèle multimodal visuel-langage PaddleOCR-VL, qui a suscité un grand intérêt dans le domaine mondial de la reconnaissance optique de caractères (OCR) dès sa mise en ligne. Ce modèle, avec une taille de 0,9 milliard de paramètres, a obtenu un score de 92,56 sur le test d'évaluation autorisé OmniDocBench V1.5, surpassant tous les modèles principaux tels que DeepSeek-OCR, et s'est imposé comme le meilleur modèle OCR au monde.

Jusqu'au 21 octobre, les trois premiers modèles sur la liste des modèles tendances de Huggingface (Trending Models) ont été occupés par des modèles OCR :
🥇PaddleOCR-VL (PaddlePaddle)
🥈DeepSeek-OCR
🥉NanonetOCR
Ainsi, PaddleOCR-VL de PaddlePaddle est resté pendant cinq jours consécutifs en tête du classement, devenant ainsi le modèle OCR open source le plus suivi actuellement.
PaddleOCR-VL prend en charge la reconnaissance de 109 langues, permettant d'analyser précisément des textes, tableaux, formules et graphiques, et dispose également de la capacité à reconstruire la structure sémantique des documents. Cela signifie qu'il ne s'agit pas seulement de reconnaître les caractères, mais aussi de comprendre le contenu complexe des documents, offrant une grande valeur pratique dans des domaines tels que les articles scientifiques, la reconnaissance des factures ou l'extraction de connaissances.
Il convient de noter que l'équipe DeepSeek a également remercié spécifiquement PaddleOCR dans son article, révélant que certaines données d'entraînement ont été annotées à l'aide de PaddleOCR. Cette information révèle le véritable mécanisme derrière la floraison actuelle des modèles OCR : des institutions telles que Baidu, DeepSeek et Shanghai AI Lab ont presque simultanément publié des modèles OCR, non pas pour rivaliser uniquement sur la performance de reconnaissance, mais pour fournir une capacité fondamentale pour le nettoyage et l'annotation des données d'entraînement des grands modèles.
En d'autres termes, le cœur de cette course aux OCR n'est pas seulement de savoir qui reconnaît mieux, mais qui peut faire comprendre plus rapidement aux IA les textes et images du monde.




