Eine neue Studie, die von Forschern von Apple geleitet wurde, hat große Hoffnungen in Bezug auf große deduktive Modelle (LRM) zerschlagen.
Die Forscher stellten fest, dass spezialisierte Deduktionsmodelle wie Claude3.7Thinking und Deepseek-R1, die speziell für „mentale Prozesse zu simulieren“ entworfen wurden, nicht nur keine Vorteile zeigten, sondern bei der Lösung komplexer Aufgaben sogar Probleme mit „unzureichendem Denken“ und einem Kollaps der Leistungsfähigkeit aufwiesen.
Diese Studie testete vier klassische logische Rätsel: den Turm von Hanoi, das Dame-Springen-Spiel, das Überqueren eines Flusses und die Bauklötze-Welt. Diese Rätsel erlauben es, die Komplexität der Aufgabe genau zu steuern und sind ideale Szenarien zur Messung der deduktiven Fähigkeiten von Sprachmodellen. Die Ergebnisse zeigen, dass Standard-LLMs bei einfachen Aufgaben höhere Genauigkeiten erreichen und effizienter sind, während Deduktionsmodelle bei höherer Komplexität zwar einen leichten Anstieg der Leistung zeigen, sich aber schließlich auch bei hoher Komplexität völlig auflösen.
Noch überraschter war, dass diese Modelle bei den anspruchsvollsten Aufgaben nicht nur eine Null-Genauigkeit erreichten, sondern auch weniger deduktive Markierungen (Tokens) verwendeten. Mit anderen Worten, ihre „Willenskraft“ und „Fähigkeit zum Denken“ reduzierten sich tatsächlich.
Die Forschungsteam erstellte Deduktionspfade für verschiedene Komplexitätsgrade und offenbarte zwei typische Fehlermuster: Überdenken: In einfacheren Fragen finden Modelle korrekte Lösungen, generieren aber weiterhin falsche Alternativen; Denkabsturz: Bei hochkomplexen Aufgaben bricht der Deduktionprozess abrupt ab und es können keine Versuchspfade mehr generiert werden.
Obwohl Deduktionsmodelle mittels Mechanismen wie „Kettenlogik“ und „Selbstreflexion“ als Schritt hin zu allgemeiner künstlicher Intelligenz (AGI) angesehen werden, zeigt die Studie von Apple, dass diese Mechanismen grundlegende Defizite im Hinblick auf Erweiterbarkeit haben. Aktuelle Deduktionsmodelle können keine allgemeingültige Strategie formulieren, ihr „Denken“ beruht hauptsächlich auf statistischen Generierungen und ist kein echtes logisches Schließen.
Außerdem fand die Forschergruppe heraus, dass die Leistung unterschiedlicher Rätsel stark vom Trainingsdatensatz abhängt. Zum Beispiel erreichen Rätsel wie der Turm von Hanoi, die häufiger im Trainingsdatensatz vorkommen, höhere Präzision als vergleichbar komplexe, aber seltenere Rätsel wie das Überqueren eines Flusses. Dies unterstreicht die hohe Abhängigkeit der aktuellen Modelle vom Trainingsverteilung.
Forscher von Apple betonen schließlich: „Die ‘Denkfähigkeit’ aktueller Deduktionsmodelle weist eine asymmetrische Erweiterbarkeit in Bezug auf Aufgabekomplexität auf und ist strukturell nicht in der Lage, anspruchsvolle Aufgaben zu lösen.“ Sie empfehlen, die Grundprinzipien der Entwicklung solcher Modelle neu zu überdenken.
Diese Entdeckung hat weitreichende Auswirkungen auf die Branche. Während die Skalierung von AI-Modellen nahezu keine weiteren Vorteile mehr bringt, wird die deduktive Fähigkeit als Schlüssel zu der nächsten AI-Revolution betrachtet. Mehrere führende Unternehmen, darunter OpenAI, setzen große Hoffnungen in diese Richtung. Nun erinnert diese Studie daran, dass AI auf grundlegende technische Herausforderungen trifft, um wirklich zu verstehen und zu schließen.