OpenAI-Mitarbeiter bezweifeln xAI: Irreführende Ergebnisse beim Grok-3-Benchmark

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Feb 24, 2025

206

Kürzlich entbrannte eine öffentliche Debatte um Benchmarks für künstliche Intelligenz. Ein OpenAI-Mitarbeiter beschuldigte xAI, das von Elon Musk gegründete KI-Unternehmen, der Veröffentlichung irreführender Benchmark-Ergebnisse für Grok3. Igor Babuschkin, Mitbegründer von xAI, bestreitet dies vehement.

Auslöser war ein von xAI in seinem Blog veröffentlichtes Diagramm, das die Leistung von Grok3 im AIME2025-Test zeigt. AIME2025 ist eine Sammlung anspruchsvoller mathematischer Probleme aus einem kürzlich stattgefundenen Mathematikwettbewerb. Obwohl einige Experten die Eignung von AIME als KI-Benchmark anzweifeln, wird er dennoch häufig zur Bewertung der mathematischen Fähigkeiten von Modellen verwendet.

Das Diagramm von xAI zeigt, dass zwei Varianten von Grok3 – Grok3Reasoning Beta und Grok3mini Reasoning – OpenAIs derzeit bestes Modell o3-mini-high im AIME2025-Test übertreffen. OpenAI-Mitarbeiter wiesen jedoch schnell darauf hin, dass xAI in seinem Diagramm die Punktzahl von o3-mini-high im AIME2025-Test mit der Berechnung „cons@64“ nicht berücksichtigt hatte.

Was ist also cons@64? Es ist die Abkürzung für „consensus@64“. Vereinfacht gesagt, gibt es dem Modell 64 Versuche, jede Frage zu beantworten, und der am häufigsten generierte Antwort wird als endgültige Antwort verwendet. Man kann sich vorstellen, dass dieses Bewertungsverfahren die Benchmark-Punktzahl eines Modells deutlich verbessert. Das Weglassen dieser Daten im Diagramm könnte daher den falschen Eindruck erwecken, dass ein Modell ein anderes übertrifft, obwohl dies nicht der Fall ist.

Die „@1“-Punktzahlen von Grok3Reasoning Beta und Grok3mini Reasoning im AIME2025-Test, also die Punktzahl beim ersten Versuch, liegen tatsächlich unter der Punktzahl von o3-mini-high. Die Leistung von Grok3Reasoning Beta ist auch etwas schlechter als die von OpenAIs o1-Modell. Trotzdem bewirbt xAI Grok3 als „die intelligenteste KI der Welt“.

Babuschkin antwortete in den sozialen Medien, dass OpenAI in der Vergangenheit ähnliche irreführende Benchmark-Diagramme veröffentlicht habe, hauptsächlich um die Leistung seiner eigenen Modelle zu vergleichen. Ein neutraler Experte erstellte daraufhin ein „genaueres“ Diagramm mit den Leistungen verschiedener Modelle, was zu einer breiteren Diskussion führte.

Darüber hinaus weist der KI-Forscher Nathan Lambert darauf hin, dass ein wichtigerer Indikator weiterhin unklar ist: die Rechen- (und finanziellen) Kosten, die für die Erzielung der besten Punktzahlen durch die einzelnen Modelle anfallen. Dies zeigt, dass die meisten aktuellen KI-Benchmarks nur begrenzte Informationen über die Grenzen und Stärken der Modelle liefern.

Wichtigste Punkte:
🔍 Die Debatte zwischen xAI und OpenAI über die Benchmark-Ergebnisse von Grok3 erregt große Aufmerksamkeit.
📊 Das Diagramm von xAI enthielt den wichtigen Kennwert „cons@64“ von OpenAIs Modell nicht, was zu Irreführung führen konnte.
💰 Die Rechen- und finanziellen Kosten hinter der Leistung von KI-Modellen bleiben ein Rätsel.

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

Die norwegische Robotikfirma 1X stellt den ersten humanoiden Haushaltsroboter Neo vor, der für 20.000 Dollar verkauft wird und eine monatliche Abonnementsgebühr von 499 Dollar hat. Der 1,68 Meter hohe Roboter ist speziell für Aufgaben wie Spülen und Aufräumen konzipiert und verwendet einen Modus mit KI und manueller Fernsteuerung, um komplexe Aufgaben zu erledigen.

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

AWS gab bekannt, in den nächsten sechs Jahren in Südkorea zusätzliche 5 Milliarden Dollar investieren zu wollen, um KI-Datenzentren auszubauen und mit der SK Gruppe ein großes Infrastrukturprojekt in Ulsan zu bauen. Die gesamte Investition in Südkorea wird insgesamt 12,6 Milliarden Dollar betragen und zeigt die strategische Bedeutung des südkoreanischen Marktes für AWS.

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

Ding Xiang Vice-Präsident Li Liang betonte, dass KI leicht für die Erstellung von Gerüchten missbraucht werden kann. Die Plattform setzt aktiv KI-Technologie ein, um Gerüchte zu bekämpfen, und entwickelt ein 'Intelligentes System zur Bekämpfung von Gerüchten' und führt eine schnelle Suche im gesamten Netzwerk als Schwerpunkt der Arbeit in diesem Jahr durch.

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

Google Labs und DeepMind haben gemeinsam den KI-Tool Pomelli vorgestellt, der in den USA, Kanada, Australien und Neuseeland im öffentlichen Test betrieben wird. Dieses Tool richtet sich an kleine und mittlere Unternehmen und generiert durch intelligente Analyse des Website-Inhalts rasch soziale Medien-Marketingkampagnen, die zur Markenidentität passen, um die Marketingbarriere zu senken und professionelle Inhaltserschaffung zu ermöglichen. Die Kernfunktion besteht darin, den Unternehmens-DNA in drei Schritten aufzubauen.

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Zwei US-Senatoren haben das GUARD-Gesetz vorgeschlagen, das KI-Unternehmen verpflichtet, bei der Nutzung von Chatbots die Altersverifikation der Nutzer durchzuführen und Minderjährige unter 18 Jahren den Zugang zu verbieten. Das Gesetz bezieht sich auf die Sorgen von Eltern und Sicherheitsanwälten bezüglich des Einflusses der KI auf Kinder und zielt darauf ab, Minderjährige zu schützen.

OpenAI-Neustrukturierung unterstützt Microsofts Marktkapitalisierung über 4 Billionen Dollar

OpenAI wechselt von einer nicht gewinnorientierten zur kommerziellen Struktur und sucht aktiv nach Investitionen, um das Wachstum zu beschleunigen. Diese strategische Anpassung stärkt seine Marktkompetitivität und hat einen signifikanten Einfluss auf den Partner Microsoft, der so seine Marktkapitalisierung über 4 Billionen Dollar schob. Die weit verbreitete Anwendung von Technologien wie ChatGPT war ein entscheidender Treiber.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

OpenAI-Mitarbeiter bezweifeln xAI: Irreführende Ergebnisse beim Grok-3-Benchmark

AIbase基地

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

OpenAI-Neustrukturierung unterstützt Microsofts Marktkapitalisierung über 4 Billionen Dollar

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

OpenAI-Neustrukturierung unterstützt Microsofts Marktkapitalisierung über 4 Billionen Dollar