Kürzlich haben Führungskräfte von Meta in den sozialen Medien Behauptungen über ein angeblich „unangemessenes Training“ ihres neuen KI-Modells Llama4 zurückgewiesen und diese als völlig falsch bezeichnet. Die Anschuldigungen lauteten, Meta habe die neu vorgestellten Modelle Llama4Maverick und Llama4Scout mit den „Testsets“ bestimmter Benchmark-Tests trainiert, um die Leistung der Modelle künstlich zu verbessern.

Ahmad Al-Dahle, Vize-Präsident für generative KI bei Meta, widersprach diesen Behauptungen auf X deutlich. Er erklärte, dass Testsets Datensätze zur Bewertung der Modellleistung seien. Ein Training mit diesen Datensätzen führe dazu, dass die Modellleistung weit besser erscheine als sie tatsächlich sei, was in der Branche als unfairer Wettbewerb gewertet werde.

LLM Alpaka Mathematik-Großmodell

Bildquelle: KI-generiert, Bildlizenzgeber Midjourney

Es ist jedoch bemerkenswert, dass Llama4Maverick und Llama4Scout bei einigen Aufgaben nicht die erwartete Leistung zeigten. Meta gab zu, eine unveröffentlichte Testversion von Maverick auf der Benchmark-Testplattform LM Arena verwendet zu haben, um höhere Punktzahlen zu erzielen. Dies liefert zweifellos einige „Beweise“ für die oben genannten Gerüchte. Forscher stellten signifikante Unterschiede im Verhalten zwischen der öffentlich verfügbaren Maverick-Version und der auf LM Arena gehosteten Version fest.

Al-Dahle erwähnte auch, dass Benutzer bei der Verwendung von Llama4-Modellen verschiedener Cloud-Service-Anbieter Qualitätsunterschiede festgestellt haben. „Wir haben die Modelle schnell veröffentlicht, sobald sie bereit waren, und gingen von einigen Tagen aus, um alle veröffentlichten Versionen zu optimieren. Wir werden weiterhin Fehler beheben und mit unseren Partnern zusammenarbeiten“, erklärte er.

Metas Erklärung zeigt einerseits, dass die ethischen Standards des Unternehmens im Bereich KI weiterhin vertrauenswürdig sind. Andererseits deutet sie erneut darauf hin, dass die Leistung von KI-Modellen je nach Version variieren kann.