Eine kürzlich von der Ludwig-Maximilians-Universität München, dem Münchner Zentrum für Maschinelles Lernen und Adobe Research veröffentlichte Studie zeigt, dass 12 führende KI-Sprachmodelle, darunter GPT-4o, Gemini 1.5 Pro und Llama-3.3-70B, bei Aufgaben zum konzeptionellen Schlussfolgern in langen Texten einen deutlichen Leistungsabfall zeigen. Obwohl diese Modelle die Verarbeitung von Kontexten mit mindestens 128.000 Token unterstützen, weisen sie weiterhin grundlegende Einschränkungen in ihrer Fähigkeit zur Verknüpfung tiefer logischer Zusammenhänge auf.
Das von den Forschern entwickelte NOLIMA-Benchmark-System (NOLIMA steht für „No Literal Matching“) offenbart durch das bewusste Vermeiden von Keyword-Wiederholungen die Anfälligkeit der KI-Modelle bei der Konzeptualisierung. Wenn der Text beispielsweise besagt: „Yuki wohnt neben der Semperoper“, muss das Modell das Allgemeinwissen „Die Semperoper befindet sich in Dresden“ verstehen, um die Frage „Wer war in Dresden?“ zu beantworten.

Bildquelle: Das Bild wurde mit Midjourney, einem KI-Bildgenerator, erstellt.
Die Testergebnisse zeigen:
1. Abruptes Leistungsfallen bei langen Texten: Wenn der Kontext von 2.000 auf 8.000 Token erweitert wird, sinkt die Leistung der meisten Modelle deutlich ab; bei 32.000 Token erreichen 10 der 12 Modelle nur noch etwa die halbe Leistung im Vergleich zu kurzen Texten.
2. Schwächen des Aufmerksamkeitsmechanismus: Die Modelle haben Schwierigkeiten, relevante Informationen in langen Texten präzise zu lokalisieren. Wenn sich die entscheidende Antwort im zweiten Teil des Textes befindet, sinkt die Genauigkeit weiter.
3. Fehler bei spezialisierten Inferenzmodellen: Die speziell für komplexes Schlussfolgern entwickelten Systeme o1, o3-mini und DeepSeek-R1 erreichen im NOLIMA-Hard-Test mit 32K Token weniger als 50%, obwohl sie bei kurzen Texten nahezu perfekt abschneiden.
Die Studie weist darauf hin, dass die übermäßige Abhängigkeit der Modelle von „Wortübereinstimmungen“ das Kernproblem darstellt. Wenn die Tests bewusst auf identische Wörter verzichten, ist die Verbesserung der Verarbeitung langer Texte durch Llama-3.3-70B, selbst mit der Technik der „Chain of Thought“ (CoT)-Aufforderung, begrenzt. Erschwerend kommt hinzu, dass irrelevante Wortübereinstimmungen im Kontext zu Fehlurteilen führen können.
„Dies offenbart den grundlegenden Widerspruch der aktuellen KI: Die Erweiterung des Kontextfensters ist einfach, die Verbesserung der Fähigkeit zum tiefen Schlussfolgern ist schwer“, betonen die Forscher. GPT-4o erreicht zwar eine effektive Kontextlänge von 8.000 Token, zeigt aber bei der Integration von Konzepten über Absätze hinweg Schwächen. Mit zunehmender Textlänge „verliert“ der Aufmerksamkeitsmechanismus des Modells zunehmend den Fokus und kann keine kohärente logische Kette mehr aufrechterhalten.
Die Studie ist eine Warnung für die KI-Entwicklung: Die bloße Erhöhung der Verarbeitungslänge allein reicht nicht aus, um die Inferenzengrenze zu überwinden. Die Branche muss die Architektur der Modelle neu überdenken und effizientere Mechanismen zur Informationsgewinnung und -verknüpfung entwickeln. Die Fähigkeit, Texte wirklich zu verstehen und nicht nur auf Musterabgleich zu setzen, wird der Schlüssel sein, um die Grenzen der Verarbeitung langer Texte zu überwinden.





