No ranking do benchmark de modelo multimodal de linguagem visual chinês (SuperCLUE-VLM) lançado em 28 de agosto, o Gemini-2.5-Pro obteve a pontuação total de 74,99 e ficou em primeiro lugar, enquanto o GPT-5 (high) da OpenAI obteve 68,59 pontos e ficou em segundo lugar.

image.png

Esse benchmark foi construído com base nas características das cenas chinesas, envolvendo três dimensões principais: conhecimento básico, raciocínio visual e aplicação visual, visando fornecer padrões objetivos e justos para o desenvolvimento de modelos multimodais de linguagem visual.

O teste abrangeu 15 modelos multimodais, incluindo Claude-Opus-4.1, Gemini-2.5-Pro, GPT-5 (high), ERNIE-4.5-Turbo-VL, Doubao-Seed-1.6-thinking, hunyuan-t1-vision e Qwen-V1-Max-Latest, abrangendo os principais modelos nacionais e internacionais.

image.png

Finalmente, o Gemini-2.5-Pro obteve a pontuação total de 74,99 e ficou em primeiro lugar, enquanto o GPT-5 (high) da OpenAI obteve 68,59 pontos e ficou em segundo lugar. O ERNIE-4.5-Turbo-VL da Baidu ficou empatado com outros modelos nacionais, demonstrando uma forte competitividade no mercado.