Im Ranking des chinesischen multimodalen visuellen Sprachmodells SuperCLUE-VLM, das am 28. August veröffentlicht wurde, belegte Gemini-2.5-Pro mit insgesamt 74,99 Punkten den ersten Platz, gefolgt von GPT-5 (high) von OpenAI mit 68,59 Punkten auf dem zweiten Platz.

image.png

Dieses Benchmark-System wurde auf Basis der Besonderheiten chinesischer Szenarien entwickelt und umfasst drei zentrale Dimensionen: grundlegende Wissensbildung, visuelle Schlussfolgerung und visuelle Anwendung. Es zielt darauf ab, einen objektiven und fairen Bewertungsstandard für die Entwicklung multimodaler visueller Sprachmodelle bereitzustellen.

In dieser Bewertung wurden insgesamt 15 multimodale Modelle wie Claude-Opus-4.1, Gemini-2.5-Pro, GPT-5 (high), ERNIE-4.5-Turbo-VL, Doubao-Seed-1.6-thinking, hunyuan-t1-vision und Qwen-V1-Max-Latest untersucht, wobei sowohl inländische als auch internationale führende Modelle vertreten sind.

image.png

Am Ende belegte Gemini-2.5-Pro mit insgesamt 74,99 Punkten den ersten Platz, gefolgt von GPT-5 (high) von OpenAI mit 68,59 Punkten auf dem zweiten Platz. Der ERNIE-4.5-Turbo-VL von Baidu erreichte mit anderen inländischen Modellen eine gemeinsame Position und zeigte damit eine starke Marktkompetitivität.