Das Shanghai AI Laboratory 司南 OpenCompass Team und ModelScope haben kürzlich ein wichtiges Update für ihre Large-Model-Bewertungsplattform Compass Arena angekündigt: den neuen multimodalen Bereich Compass Multi-Modal Arena. Dieser neue Bereich bietet Nutzern eine Plattform zum Testen und Vergleichen verschiedener multimodaler Large Models, um das am besten geeignete Modell für ihre Bedürfnisse zu finden.

微信截图_20240813080725.png

Die Website und die ModelScope-Seite von Compass Multi-Modal Arena sind öffentlich zugänglich und bieten eine benutzerfreundliche Oberfläche. Nutzer können Bilder hochladen und Fragen eingeben. Das System wählt dann zwei anonyme multimodale Large Models aus, die auf der Grundlage der Eingabe Antworten generieren. Die Nutzer bewerten die Qualität der generierten Inhalte subjektiv und wählen das ihrer Meinung nach bessere Modell aus. Nach der Bewertung werden die Namen der Modelle angezeigt.

微信截图_20240813080734.png

Die Plattform enthält auch eine spezielle Datenbank mit Beispielfragen, die hilfreich ist, wenn kein Bild hochgeladen werden kann. Der Fokus liegt auf subjektiven visuellen Frage-Antwort-Aufgaben, wie z. B. Meme-Interpretation, Kunst- und Fotoanalyse. Dies dient der Bewertung der Leistung und Benutzererfahrung multimodaler Large Models bei subjektiven Aufgaben.

Compass Multi-Modal Arena Website:

https://opencompass.org.cn/arena?type=multimodal

ModelScope Seite:

https://modelscope.cn/studios/opencompass/CompassArena

HuggingFace Seite:

https://huggingface.co/spaces/opencompass/CompassArena

OpenCompass Multimodales Bewertungs-Tool (Open Source):

https://github.com/open-compass/VLMEvalKit