Le 11 mai, un progrès majeur a été enregistré dans le domaine du traitement des documents intelligents avec l'introduction officielle de la première base de référence unifiée pour les modèles vision-langage, appelée "IDP Leaderboard". Cette base d'évaluation évalue la performance des principaux modèles actuels sur six tâches clés – OCR, extraction d'informations cruciales, question-réponse visuelle, extraction de tableaux, classification et traitement de documents longs – à travers 16 jeux de données et 9 229 documents, offrant ainsi une référence quantifiable pour le développement de ce secteur.
Les résultats des tests montrent que Gemini2.5Flash domine globalement les autres modèles, mais il rencontre des difficultés inattendues dans les tâches OCR et de classification, où ses performances sont inférieures à celles de sa version précédente, Gemini2.0Flash, avec une baisse respectivement de 1,84 % et 0,05 %. Les analystes estiment que cette défaillance pourrait être liée au fait que Google ait concentré son effort principal sur l'amélioration des capacités de raisonnement multimodal, négligeant ainsi l'optimisation des fonctions de reconnaissance de texte de base.
En parallèle, GPT-4o-mini d'OpenAI se distingue particulièrement dans la compréhension des graphiques et des diagrammes, notamment lors des tâches de question-réponse visuelles telles que ChartQA. Toutefois, le coût élevé de chaque requête Token fait de cette solution un facteur limitant dans les applications pratiques. Les discussions au sein de la communauté des développeurs portent principalement sur la manière d'équilibrer les performances et les coûts.
Il convient de noter que le traitement de documents longs et l'extraction de tableaux restent des points faibles significatifs pour les modèles vision-langage actuels. Même les meilleurs modèles obtiennent un score de seulement 69,08 % dans la tâche de documents longs (LongDocBench), tandis que l'extraction de tableaux atteint un maximum de 66,64 % selon l'indicateur GriTS. Ces résultats soulignent les limites de l'IA dans la gestion de structures complexes et de contextes étendus.
L'IDP Leaderboard utilise des jeux de données extrêmement diversifiés, incluant des textes manuscrits, imprimés, avec accents, des tableaux structurés et non structurés, ainsi que des documents complexes de 21 pages. Les indicateurs d'évaluation sont également adaptés aux spécificités de chaque tâche : distance d'édition pour OCR, KIE, VQA et traitement de documents longs ; précision de correspondance exacte pour la classification ; et indicateur GriTS pour l'extraction de tableaux, garantissant une évaluation complète et impartiale.
La base de référence prévoit de mettre à jour régulièrement les jeux de données et d'introduire de nouveaux modèles (comme la série Claude) pour maintenir l'actualité et l'autorité de l'évaluation. Les développeurs peuvent accéder aux jeux de données et au code d'évaluation via GitHub (https://github.com/nanonets/idp-leaderboard) et participer aux discussions communautaires.
Lancement de la base de référence pour le traitement intelligent des documents marque l'entrée dans une nouvelle phase d'évaluation quantifiable pour les IA multimodales dans ce domaine. Bien que Gemini2.5Flash affiche des performances impressionnantes, les tests révèlent également les défis actuels de la technologie. À mesure que les jeux de données s'enrichissent et que les optimisations modèles progressent, les technologies de traitement intelligent des documents devraient apporter une plus grande valeur dans les domaines de l'automatisation des entreprises, de la numérisation des archives et des recherches intelligentes, fournissant ainsi un soutien technique plus puissant pour la transformation numérique.