Kürzlich hat OpenAI seine neuesten KI-Modelle o3 und o4-mini vorgestellt, die in vielerlei Hinsicht auf dem neuesten Stand der Technik sind. Allerdings zeigen die neuen Modelle keine Verbesserung beim Problem der „Halluzinationen“, im Gegenteil: Die Halluzinationen sind bei o3 und o4-mini sogar noch ausgeprägter als bei vielen vorherigen OpenAI-Modellen.

„Halluzinationen“ bezeichnen die fälschliche Generierung von falschen Informationen durch KI-Modelle – eines der derzeit schwierigsten Probleme im Bereich der KI. Bisherige Modellgenerationen zeigten Verbesserungen bei der Reduzierung von Halluzinationen. o3 und o4-mini brechen diesen Trend jedoch. Internen Tests von OpenAI zufolge weisen diese als „Inferenzmodelle“ bezeichneten KIs eine höhere Halluzinationsrate auf als frühere Inferenzmodelle des Unternehmens und traditionelle Nicht-Inferenzmodelle wie GPT-4o.

OpenAI

Bildquelle: Das Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney.

In seinem technischen Bericht weist OpenAI darauf hin, dass das o3-Modell im PersonQA-Benchmark eine Halluzinationsrate von 33 % aufweist – das Doppelte der Halluzinationsrate der vorherigen o1- und o3-mini-Modelle mit 16 % bzw. 14,8 %. Die Halluzinationsrate von o4-mini im PersonQA-Benchmark liegt sogar bei 48 % und zeigt ein noch schwerwiegenderes Problem.

Die unabhängige Testorganisation Transluce stellte ebenfalls fest, dass das o3-Modell bei der Beantwortung von Fragen häufig selbst erfundene Aktionen beschreibt. Beispielsweise behauptete o3, Code auf einem MacBook Pro aus dem Jahr 2021 ausgeführt und das Ergebnis in die Antwort kopiert zu haben, obwohl es dazu nicht in der Lage ist.

Forscher von Transluce vermuten, dass die bei den o-Modellen verwendete Methode des verstärkenden Lernens einige Probleme verstärken könnte, die durch herkömmliche Nachtrainingsprozesse gemildert werden könnten. Dieses Phänomen beeinträchtigt die Praktikabilität von o3 erheblich. Ein Honorarprofessor der Stanford University stellte bei Tests des o3-Programmier-Workflows fest, dass o3 ungültige Website-Links generiert, was die Benutzerfreundlichkeit beeinträchtigt.

Obwohl Halluzinationen in gewisser Weise die kreative Denkweise des Modells fördern können, führen die häufigen Faktfehler in Branchen mit hohen Genauigkeitsanforderungen, wie dem Rechtswesen, zu erheblichen Problemen.

Eine effektive Methode zur Verbesserung der Modellgenauigkeit besteht darin, den Modellen die Möglichkeit zur Websuche zu geben. OpenAIs GPT-4o erreichte im SimpleQA-Benchmark eine Genauigkeit von 90 % durch Websuche. Daher könnte die Suchfunktion die Halluzinationen von Inferenzmodellen verbessern.

Wenn sich das Problem der Halluzinationen bei Inferenzmodellen mit zunehmender Größe jedoch weiter verschlimmert, steigt die Dringlichkeit, Lösungen zu finden. OpenAI gibt an, dass kontinuierlich an der Verbesserung der Genauigkeit und Zuverlässigkeit aller seiner Modelle geforscht wird.

Im vergangenen Jahr hat sich die KI-Branche auf Inferenzmodelle konzentriert, da die Verbesserung traditioneller KI-Modelle abnehmende Erträge gezeigt hat. Das Aufkommen von Inferenzmodellen scheint jedoch auch zu mehr Halluzinationen zu führen, was neue Herausforderungen für die zukünftige Entwicklung mit sich bringt.

Wichtigste Punkte:

🌟 Die neuen Inferenzmodelle o3 und o4-mini von OpenAI weisen eine höhere Halluzinationsrate auf als frühere Modelle.

🤖 o3 hat im PersonQA-Benchmark eine Halluzinationsrate von 33 %, o4-mini sogar 48 %.

🔍 Eine potenzielle Methode zur Verbesserung der Modellgenauigkeit und Reduzierung von Halluzinationen ist die Integration einer Websuchfunktion.