Meta veröffentlichte am Samstag sein neues Flaggschiff-KI-Modell Maverick, das im LM Arena-Benchmark den zweiten Platz belegte. LM Arena ist eine Testplattform, die auf menschlichen Bewertern basiert, die die Ausgaben verschiedener Modelle vergleichen und ihre Präferenzen auswählen. Mehrere KI-Forscher stellten jedoch schnell fest, dass die von Meta auf LM Arena bereitgestellte Version von Maverick erhebliche Unterschiede zu der von Entwicklern weit verbreiteten Version aufweist.

Facebook Metaverse Meta

Meta räumte in einer Ankündigung ein, dass Maverick auf LM Arena eine „experimentelle Chat-Version“ sei. Gleichzeitig zeigt ein Diagramm auf der offiziellen Llama-Website, dass der LM Arena-Test von Meta „Llama4Maverick, optimiert für den Dialog“, verwendet. Diese Diskrepanz hat in der Forschungscommunity Fragen aufgeworfen.

KI-Forscher wiesen auf der Social-Media-Plattform X auf deutliche Verhaltensunterschiede zwischen der öffentlich herunterladbaren Maverick-Version und der auf LM Arena gehosteten Version hin. Die LM Arena-Version zeichnet sich durch die Verwendung einer Vielzahl von Emojis und ausführlicher Antworten aus, was bei der Standardversion nicht üblich ist. Ein Forscher namens Nathan Lambert teilte diese Entdeckung auf X und kommentierte ironisch: „Nun ja, Llama4 ist wohl etwas überkocht, haha, wo ist denn hier Yap City?“, zusammen mit entsprechenden Screenshots.

Diese Praxis, Modelle für bestimmte Benchmarks anzupassen und dann die „ursprüngliche“ Version zu veröffentlichen, wirft ernsthafte Probleme auf, vor allem weil es Entwicklern schwerfällt, die Leistung des Modells in realen Anwendungsszenarien genau vorherzusagen. Darüber hinaus wird diese Vorgehensweise als irreführend angesehen, da der Zweck von Benchmarks darin besteht, eine objektive Momentaufnahme der Stärken und Schwächen eines einzelnen Modells in verschiedenen Aufgaben zu liefern.

Obwohl LM Arena aus verschiedenen Gründen nicht immer als der zuverlässigste Indikator für die Leistung von KI-Modellen angesehen wird, geben KI-Unternehmen in der Regel nicht öffentlich zu, Modelle speziell optimiert zu haben, um bessere Ergebnisse in Benchmarks zu erzielen. Metas Vorgehen scheint diese Konvention zu brechen und löst eine breitere Diskussion über die Transparenz bei der Bewertung von KI-Modellen aus.