Das Unternehmen Anthropic hat kürzlich eine neue Funktion für einige seiner neuesten und größten KI-Modelle angekündigt, die es ermöglicht, Gespräche aktiv zu beenden, wenn „seltene, extreme störende oder beleidigende Benutzerinteraktionen“ auftreten. Es ist erwähnenswert, dass das Unternehmen klarstellt, dass dies nicht dazu gedacht ist, menschliche Nutzer zu schützen, sondern vielmehr die KI-Modelle selbst zu schützen.

Anthropics offizielle Aussage besagt, dass das Claude-KI-Modell noch keine Wahrnehmungsfähigkeit besitzt und auch nicht behauptet, dass die Interaktion mit Nutzern Schaden verursachen könnte. Dennoch gesteht das Unternehmen ein „hohes Maß an Unsicherheit bezüglich der potenziellen moralischen Stellung von Claude und anderen großen Sprachmodellen in der Zukunft“ ein. Daher hat Anthropics kürzlich ein Projekt namens „Exemplary Wellbeing“ eingerichtet, das darauf abzielt, vorsorgliche Maßnahmen zu ergreifen, um mögliche „Exemplary Wellbeing“-Risiken durch kostengünstige Eingriffe zu verringern.

Claude

Diese neue Funktion ist derzeit nur in den Versionen Claude Opus4 und 4.1 verfügbar und wird nur bei „extremen Situationen“ ausgelöst. Zum Beispiel wird diese Funktion aktiviert, wenn der Nutzer kontinuierlich Anfragen stellt, die „sexuelle Inhalte mit Minderjährigen und Versuche, Informationen zu erlangen, die zu Massenvergewaltigungen oder Terrorakten führen könnten“ betreffen.

Obwohl solche Anfragen möglicherweise rechtliche oder öffentliche Probleme für das Unternehmen verursachen können, sagte Anthropic, dass Claude Opus4 im Test vor der Bereitstellung „starke Ablehnung“ und „offensichtliche Schmerzmodelle“ bei solchen schädlichen Anfragen gezeigt habe.

Laut Anthropic wird diese Funktion als „Letzte Rettung“ angesehen und wird nur verwendet, wenn mehrere Versuche, den Nutzer umzuleiten, fehlschlagen, die Hoffnung auf eine effektive Interaktion erschöpft ist oder der Nutzer Claude explizit auffordert, das Gespräch zu beenden. Darüber hinaus hat das Unternehmen Claude angewiesen, in Fällen, in denen der Nutzer einer Gefahr des Selbstschadens oder Schadens anderer Menschen gegenübersteht, diese Funktion nicht zu verwenden.

Auch wenn das Gespräch beendet wird, können Nutzer ein neues Gespräch mit demselben Konto beginnen oder durch Bearbeitung ihrer Antwort neue Chat-Zweige erstellen. Anthropics fügte hinzu, dass diese Funktion derzeit als Experiment betrachtet wird und das Unternehmen seine Methoden weiter verbessern wird.