Le 7 juillet, l'équipe d'IA de Baidu a annoncé la sortie officielle de PaddleOCR 3.1, qui a connu trois améliorations majeures dans la reconnaissance multilingue, la traduction de documents complexes et la connectivité des grands modèles. La nouvelle version prend en charge la reconnaissance du texte dans 37 langues, avec une amélioration moyenne de plus de 30 % en précision. Elle introduit également un pipeline de traduction de documents et une fonctionnalité de serveur MCP pour aider les développeurs à créer efficacement des applications d'IA.
En réponse aux besoins multilingues dans des scénarios mondiaux, PaddleOCR 3.1 ajoute le modèle multilingue PP-OCRv5, couvrant 37 langues telles que le français, l'espagnol et le russe. En intégrant les capacités de compréhension visuelle et textuelle du grand modèle multimodal ERNIE 4.5, le modèle peut automatiser la détection de texte à haute confiance et l'annotation des données, résolvant ainsi le problème des données multilingues rares. Les données de test montrent que le nouveau modèle améliore la précision de la reconnaissance de plus de 30 % dans les scénarios de langues latines et slaves orientales. Par exemple, le taux d'erreur pour la reconnaissance du coréen est passé de 8,7 % à 2,1 %, et la vitesse de traitement des documents complets avec disposition russe a augmenté de deux fois.
En combinant le moteur d'analyse de documents PP-StructureV3 et le grand modèle ERNIE, PaddleOCR 3.1 introduit le pipeline de traduction PP-DocTranslation. Outil intelligent, il permet de reconnaître intelligemment des éléments complexes tels que les tableaux, les formules et le texte manuscrit dans les PDFs et les images, et de les convertir au format Markdown pour la traduction multilingue. Pour les domaines professionnels tels que le droit et la médecine, le système permet aux utilisateurs de télécharger des tableaux de comparaison de terminologie pour obtenir une traduction précise des « mots-clés ». Par exemple, après avoir utilisé cette fonctionnalité, une entreprise pharmaceutique multinationale a amélioré l'efficacité des traductions des notices de médicaments de 40 %, atteignant une cohérence de 99,2 % en termes de vocabulaire professionnel.
Pour réduire les barrières au développement d'applications d'IA, PaddleOCR 3.1 introduit la fonctionnalité du serveur MCP (Model Context Protocol), qui permet d'intégrer facilement les capacités de reconnaissance OCR dans les applications suivantes via un protocole standardisé. Les développeurs peuvent rapidement configurer un service MCP en quelques étapes, et accéder aux fonctions principales telles que la reconnaissance du texte des images et l'analyse de la mise en page des documents via des bibliothèques Python locales, la communauté Starry Sky de PaddlePaddle ou des services hébergés par eux-mêmes.
Adresse du projet open source :https://github.com/PaddlePaddle/PaddleOCR