Kürzlich veröffentlichten Teams der Universität Cambridge und anderer Institutionen eine bahnbrechende Studie, die das wahre Gesicht großer Sprachmodelle (LLMs) enthüllt und die tatsächliche Leistung aktueller LLMs eingehend analysiert. Die Ergebnisse sind schockierend: Diese vielversprechenden KI-Modelle schneiden bei vielen grundlegenden Aufgaben weit schlechter ab als erwartet.
Die Studie umfasste eine umfassende Bewertung mehrerer führender Modelle, darunter o1-preview. Die Ergebnisse zeigen einen erheblichen Unterschied im Verständnis zwischen KI-Modellen und Menschen. Überraschenderweise schnitten die Modelle bei Aufgaben, die von Menschen als komplex angesehen werden, gut ab, versagten aber bei einfachen Problemen immer wieder. Dieser Gegensatz lässt Zweifel aufkommen, ob diese KIs die Aufgabe wirklich verstehen oder nur „klug tun“.
Noch überraschender ist, dass Prompt Engineering, eine Technik, die die KI-Leistung verbessern soll, die grundlegenden Probleme der Modelle offenbar nicht lösen kann. Die Studie ergab, dass die Modelle selbst bei einfachen Rechtschreibspielen lächerliche Fehler machten. So konnten sie zwar komplexe Wörter wie „electroluminescence“ korrekt buchstabieren, gaben aber bei einfachen Rätseln wie „my“ die falsche Antwort „mummy“.
Das Forscherteam bewertete 32 verschiedene große Sprachmodelle. Die Ergebnisse zeigten, dass diese Modelle bei der Bewältigung von Aufgaben unterschiedlicher Schwierigkeit sehr instabil waren. Bei komplexen Aufgaben lag ihre Genauigkeit weit unter den Erwartungen. Schlimmer noch: Die Modelle scheinen komplexere Aufgaben in Angriff zu nehmen, bevor sie einfache Aufgaben vollständig beherrschen, was zu häufigen Fehlern führt.
Ein weiteres Problem ist die hohe Empfindlichkeit der Modelle gegenüber Eingabeaufforderungen. Die Studie ergab, dass viele Modelle selbst einfache Aufgaben nicht korrekt erledigen konnten, wenn die Eingabeaufforderung nicht sorgfältig formuliert war. Bei derselben Aufgabe konnte eine einfache Änderung der Eingabeaufforderung zu völlig unterschiedlichen Ergebnissen führen. Diese Instabilität stellt eine große Herausforderung für die praktische Anwendung dar.
Besorgniserregender ist, dass auch bei Modellen, die mit Reinforcement Learning from Human Feedback (RLHF) trainiert wurden, das Problem der Zuverlässigkeit nicht grundlegend gelöst wurde. In komplexen Anwendungsszenarien zeigen diese Modelle oft übermäßige Zuversicht, aber die Fehlerquote steigt stark an. Dies kann dazu führen, dass Benutzer unwissentlich falsche Ergebnisse akzeptieren und schwerwiegende Fehlurteile treffen.
Diese Studie ist zweifellos ein Dämpfer für die KI-Branche, insbesondere im Vergleich zu den optimistischen Vorhersagen von Ilya Sutskever, dem „Nobelpreisträger“ der KI-Welt vor zwei Jahren. Er war zuversichtlich, dass die Leistung der KI mit der Zeit den Erwartungen der Menschen entsprechen würde. Die Realität sieht jedoch ganz anders aus.
Diese Studie ist wie ein Spiegel, der die vielen Schwächen aktueller großer Sprachmodelle aufzeigt. Obwohl wir die Zukunft der KI mit Spannung erwarten, mahnen diese Erkenntnisse uns zur Vorsicht bei diesen „großen Klugen“. Die Zuverlässigkeit der KI muss dringend verbessert werden, der Weg zur Weiterentwicklung ist noch lang.
Diese Studie zeigt nicht nur den aktuellen Stand der KI-Entwicklung auf, sondern liefert auch wichtige Hinweise für zukünftige Forschungsrichtungen. Sie erinnert uns daran, dass wir neben der Steigerung der KI-Fähigkeiten auch deren Stabilität und Zuverlässigkeit im Auge behalten müssen. Zukünftige KI-Forschung sollte sich möglicherweise stärker darauf konzentrieren, die konsistente Leistung von Modellen zu verbessern und ein Gleichgewicht zwischen einfachen und komplexen Aufgaben zu finden.
Referenzen:
https://docs.google.com/document/u/0/d/1SwdgJBLo-WMQs-Z55HHndTf4ZsqGop3FccnUk6f8E-w/mobilebasic?_immersive_translate_auto_translate=1