Laut Daten der unabhängigen KI-Testorganisation Artificial Analysis kostet die Evaluierung von OpenAIs o1-Inferenzmodell auf sieben gängigen Benchmarks 2.767,05 US-Dollar, während das nicht-inferenzbasierte Modell GPT-4o nur 108,85 US-Dollar kostet. Dieser deutliche Unterschied hat eine Debatte über die Nachhaltigkeit und Transparenz von KI-Bewertungen ausgelöst.

Inferenzmodelle, also KI-Systeme, die schrittweise über Problemlösungen „nachdenken“ können, zeigen zwar in bestimmten Bereichen hervorragende Leistungen, ihre Benchmark-Kosten sind jedoch deutlich höher als bei herkömmlichen Modellen. Artificial Analysis schätzte die Kosten für die Evaluierung von etwa einem Dutzend Inferenzmodellen auf insgesamt 5.200 US-Dollar – fast das Doppelte der Kosten (2.400 US-Dollar) für die Analyse von über 80 nicht-inferenzbasierten Modellen.

Roboter Künstliche Intelligenz KI

Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.

Die Kostenunterschiede resultieren hauptsächlich aus der großen Anzahl an Tokens, die von Inferenzmodellen generiert werden. Beispielsweise erzeugte o1 im Test über 44 Millionen Tokens, etwa das Achtfache von GPT-4o. Da Benchmarks immer komplexer werden und die Fähigkeit zur Bewertung von realen Aufgaben verbessern, und die Kosten pro Token bei Top-Modellen steigen (z. B. 600 US-Dollar pro Million ausgegebener Tokens bei OpenAIs o1-pro), wird die unabhängige Validierung der Leistung dieser Modelle extrem teuer.

Obwohl einige KI-Labore Benchmark-Organisationen kostenlosen oder subventionierten Zugang bieten, befürchten Experten, dass dies die Objektivität der Bewertungen beeinträchtigen könnte. Ross Taylor, CEO von General Reasoning, hinterfragt: „Aus wissenschaftlicher Sicht: Ist es überhaupt Wissenschaft, wenn man ein Ergebnis veröffentlicht, das niemand mit demselben Modell reproduzieren kann?“