Gemäß den neuesten Testergebnissen des ARC Awards unterscheiden sich die Leistung und Kosten der führenden KI-Modelle deutlich. Bei der ARC-AGI-2-Benchmark-Test, die die allgemeine Schlussfolgerungsfähigkeit der Modelle bewertet, erreicht GPT-5 (Advanced) einen Score von 9,9 % mit einer Kosten von 0,73 US-Dollar pro Aufgabe. Währenddessen schneidet Grok4 (Thinker) etwas besser ab, mit einer Genauigkeit von 16 %, aber auch mit höheren Kosten von 2 bis 4 US-Dollar pro Aufgabe. Dies zeigt, dass Grok4 bei komplexen Schlussfolgerungsaufgaben eine bessere Leistung bietet, jedoch eine deutlich schlechtere Kosten-Effizienz im Vergleich zu GPT-5 hat.
Vergleich der Leistung und Kosten führender Sprachmodelle auf der ARC-AGI-Benchmark. | Bild: ARC-AGI
Bei dem weniger anspruchsvollen ARC-AGI-1-Test erreicht Grok4 erneut mit einer Genauigkeit von 68 % die Spitze, leicht überlegen gegenüber GPT-5 mit 65,7 %. Obwohl Grok4 eine höhere Genauigkeit aufweist, sind seine Kosten pro Aufgabe von etwa 1 US-Dollar deutlich höher als die von GPT-5 mit 0,51 US-Dollar, was GPT-5 in diesem Test wirtschaftlicher macht. Dennoch könnte xAI möglicherweise durch Preisanpassungen diese Lücke schließen.
Außerdem erwähnt der Bericht eine leichtgewichtige Version von GPT-5. GPT-5Mini erreicht bei AGI-1 und AGI-2 Scores von jeweils 54,3 % und 4,4 % mit Kosten von 0,12 US-Dollar und 0,20 US-Dollar. Das noch kleinerere GPT-5Nano erreicht bei AGI-1 eine Genauigkeit von 16,5 % (0,03 US-Dollar) und bei AGI-2 eine Genauigkeit von 2,5 % (0,03 US-Dollar).
Testergebnisse für Grok4, GPT-5 und kleinere Modellvarianten bei der ARC-AGI-1-Benchmark. | Bild: ARC Award
Interessanterweise erreichte das im Dezember 2024 veröffentlichte Modell o3-preview bei der ARC-AGI-1-Benchmark mit einer beeindruckenden Genauigkeit von fast 80 % eine klare Führung, hatte jedoch deutlich höhere Kosten als die anderen Konkurrenten. Obwohl OpenAI in ihrer GPT-5-Demonstration den ARC Award nicht erwähnt hat, berichtet The Information, dass das Unternehmen möglicherweise die Fähigkeiten von o3-preview stark reduziert hat, um es an nachfolgende Chat-Versionen anzupassen.
Außerhalb der genannten Benchmarks läuft auch die ARC-AGI-3-Benchmark, bei der die Modelle in einem interaktiven Umfeld wie einem Spiel Aufgaben lösen müssen. Obwohl Menschen dies problemlos meistern, haben die meisten KI-Agenten immer noch Schwierigkeiten mit visuellen Rätselspielen.