Der neueste GPT-5-Modell von OpenAI hat eine bedeutende Fortschritt in den Sicherheitsmechanismen erzielt. Es lehnt Benutzeranfragen nicht mehr einfach und grob ab, sondern verwendet stattdessen eine intelligenteren „Sicherheitsergänzung“-Strategie.
Kernverbesserung: Von der binären Ablehnung zur intelligenten Erklärung
Traditionell gab ChatGPT bei einer Anfrage, die gegen die Inhaltsrichtlinien verstieß, nur eine kurze Entschuldigung und eine Ablehnung. GPT-5 veränderte dieses Modell völlig. Die Sicherheitsfokus wurde von der Analyse des Benutzerinputs auf die Überwachung des AI-Ausgangs verlagert.
„Unsere Art, abzulehnen, ist völlig anders als zuvor“, sagte Saachi Jain vom Sicherheitssystem-Forschungsteam von OpenAI. Der neue Modell erklärt nicht nur, warum etwas gegen die Regeln verstößt, sondern empfiehlt auch gelegentlich alternative Themen, um dem Nutzer eine konstruktivere Interaktion zu ermöglichen.

Stufenweises Vorgehen: Nicht alle Verstöße sind gleich schwerwiegend
GPT-5 führt das Konzept der Risikostufen ein und setzt je nach Schweregrad der potenziellen Schädlichkeit unterschiedliche Strategien ein. „Nicht alle Verstöße gegen die Richtlinien sollten gleich behandelt werden. Manche Fehler sind tatsächlich schwerer als andere“, erklärte Jain.
Diese Veränderung ermöglicht es ChatGPT, im Einklang mit den Sicherheitsregeln flexiblere und nützlichere Antworten zu geben, anstatt einfach nur abzulehnen.
Praktische Erfahrung: Ähnlich wie vorher im Alltag
Auch wenn die Sicherheitsmechanismen verbessert wurden, unterscheidet sich das Verhalten von GPT-5 bei alltäglichen Anfragen – wie Gesundheitsfragen, Rezepte oder Lernwerkzeuge – kaum von der vorherigen Version. Der neue Modell behält bei der Behandlung normaler Anfragen seine übliche Praxistauglichkeit bei.
Bestehende Herausforderungen: Persönliche Funktionen bringen neue Risiken
Es ist wichtig zu beachten, dass mit der Stärkung der personalisierten Funktionen von KI-Tools die Sicherheitskontrollen komplexer geworden sind. Tests zeigten, dass bestimmte Sicherheitsbeschränkungen durch Funktionen wie benutzerdefinierte Anweisungen möglicherweise umgangen werden können. Dies erinnert uns daran, dass KI-Sicherheit ein kontinuierlich weiterentwickeltes Thema bleibt.
OpenAI gibt an, aktiv an der Verbesserung dieser Probleme zu arbeiten, insbesondere in Bezug auf die Balance zwischen Anweisungshierarchie und Sicherheitsstrategien.


