Kürzlich entbrannte eine öffentliche Debatte um Benchmarks für künstliche Intelligenz. Ein OpenAI-Mitarbeiter beschuldigte xAI, das von Elon Musk gegründete KI-Unternehmen, der Veröffentlichung irreführender Benchmark-Ergebnisse für Grok3. Igor Babuschkin, Mitbegründer von xAI, bestreitet dies vehement.

Auslöser war ein von xAI in seinem Blog veröffentlichtes Diagramm, das die Leistung von Grok3 im AIME2025-Test zeigt. AIME2025 ist eine Sammlung anspruchsvoller mathematischer Probleme aus einem kürzlich stattgefundenen Mathematikwettbewerb. Obwohl einige Experten die Eignung von AIME als KI-Benchmark anzweifeln, wird er dennoch häufig zur Bewertung der mathematischen Fähigkeiten von Modellen verwendet.

Das Diagramm von xAI zeigt, dass zwei Varianten von Grok3 – Grok3Reasoning Beta und Grok3mini Reasoning – OpenAIs derzeit bestes Modell o3-mini-high im AIME2025-Test übertreffen. OpenAI-Mitarbeiter wiesen jedoch schnell darauf hin, dass xAI in seinem Diagramm die Punktzahl von o3-mini-high im AIME2025-Test mit der Berechnung „cons@64“ nicht berücksichtigt hatte.

QQ_1740367365318.png

Was ist also cons@64? Es ist die Abkürzung für „consensus@64“. Vereinfacht gesagt, gibt es dem Modell 64 Versuche, jede Frage zu beantworten, und der am häufigsten generierte Antwort wird als endgültige Antwort verwendet. Man kann sich vorstellen, dass dieses Bewertungsverfahren die Benchmark-Punktzahl eines Modells deutlich verbessert. Das Weglassen dieser Daten im Diagramm könnte daher den falschen Eindruck erwecken, dass ein Modell ein anderes übertrifft, obwohl dies nicht der Fall ist.

Die „@1“-Punktzahlen von Grok3Reasoning Beta und Grok3mini Reasoning im AIME2025-Test, also die Punktzahl beim ersten Versuch, liegen tatsächlich unter der Punktzahl von o3-mini-high. Die Leistung von Grok3Reasoning Beta ist auch etwas schlechter als die von OpenAIs o1-Modell. Trotzdem bewirbt xAI Grok3 als „die intelligenteste KI der Welt“.

Babuschkin antwortete in den sozialen Medien, dass OpenAI in der Vergangenheit ähnliche irreführende Benchmark-Diagramme veröffentlicht habe, hauptsächlich um die Leistung seiner eigenen Modelle zu vergleichen. Ein neutraler Experte erstellte daraufhin ein „genaueres“ Diagramm mit den Leistungen verschiedener Modelle, was zu einer breiteren Diskussion führte.

QQ_1740367567952.png

Darüber hinaus weist der KI-Forscher Nathan Lambert darauf hin, dass ein wichtigerer Indikator weiterhin unklar ist: die Rechen- (und finanziellen) Kosten, die für die Erzielung der besten Punktzahlen durch die einzelnen Modelle anfallen. Dies zeigt, dass die meisten aktuellen KI-Benchmarks nur begrenzte Informationen über die Grenzen und Stärken der Modelle liefern.

Wichtigste Punkte:

🔍 Die Debatte zwischen xAI und OpenAI über die Benchmark-Ergebnisse von Grok3 erregt große Aufmerksamkeit.

📊 Das Diagramm von xAI enthielt den wichtigen Kennwert „cons@64“ von OpenAIs Modell nicht, was zu Irreführung führen konnte.

💰 Die Rechen- und finanziellen Kosten hinter der Leistung von KI-Modellen bleiben ein Rätsel.