Sur le classement du benchmark de modèles multimodaux visuels en chinois (SuperCLUE-VLM) publié le 28 août, Gemini-2.5-Pro se classe en tête avec un score total de 74,99 points, suivi par GPT-5 (high) d'OpenAI avec 68,59 points.
Ce benchmark a été construit autour des trois dimensions centrales de la compréhension fondamentale, du raisonnement visuel et de l'application visuelle, en tenant compte des caractéristiques spécifiques des scénarios en chinois, afin de fournir une norme d'évaluation objective et équitable pour le développement des modèles multimodaux visuels-langage.
Cette évaluation inclut au total 15 modèles multimodaux, notamment Claude-Opus-4.1, Gemini-2.5-Pro, GPT-5 (high), ERNIE-4.5-Turbo-VL, Doubao-Seed-1.6-thinking, hunyuan-t1-vision, Qwen-V1-Max-Latest, couvrant ainsi les principaux modèles nationaux et internationaux.
Au final, Gemini-2.5-Pro se classe en tête avec un score total de 74,99 points, GPT-5 (high) d'OpenAI est deuxième avec 68,59 points, tandis que ERNIE-4.5-Turbo-VL de Baidu se classe parmi les autres modèles nationaux, démontrant une forte compétitivité sur le marché.