En la lista de evaluación del conjunto de datos de modelos de lenguaje visual multimoodal en chino (SuperCLUE-VLM) publicada el 28 de agosto, Gemini-2.5-Pro obtuvo un total de 74,99 puntos y se colocó en primer lugar, mientras que GPT-5(high) de OpenAI obtuvo 68,59 puntos y se ubicó en segundo lugar.

image.png

Este estándar de evaluación se basa en las características de los escenarios en chino y construye un sistema de evaluación centrado en tres dimensiones principales: conocimiento básico, razonamiento visual y aplicación visual, con el objetivo de proporcionar un estándar de evaluación objetivo y justo para el desarrollo de modelos de lenguaje visual multimoodal.

Esta evaluación cubrió un total de 15 modelos multimoodal, incluyendo Claude-Opus-4.1, Gemini-2.5-Pro, GPT-5 (high), ERNIE-4.5-Turbo-VL, Doubao-Seed-1.6-thinking, hunyuan-t1-vision, Qwen-V1-Max-Latest, entre otros, abarcando modelos principales nacionales e internacionales.

image.png

Finalmente, Gemini-2.5-Pro obtuvo un total de 74,99 puntos y se colocó en primer lugar, mientras que GPT-5 (high) de OpenAI obtuvo 68,59 puntos y se ubicó en segundo lugar, y ERNIE-4.5-Turbo-VL de Baidu se colocó junto con otros modelos nacionales, mostrando una fuerte competitividad en el mercado.