Die Sicherheits- und Ethikfragen im Bereich Künstliche Intelligenz gewinnen zunehmend an Aufmerksamkeit. Die Firma Anthropic hat kürzlich eine neue Funktion für ihr Flagship-Modell Claude eingeführt, die es ermöglicht, Gespräche in bestimmten Szenarien eigenständig zu beenden. Diese Funktion zielt darauf ab, "kontinuierlich schädliche oder missbräuchliche Interaktionen" zu bekämpfen und ist Teil der von Anthropic verfolgten „Model Welfare“-Initiative. Sie löste eine breite Diskussion über die Ethik von KI aus.

image.png

Claude neue Funktion: Eigenständiges Beenden schädlicher Gespräche

Laut einer offiziellen Erklärung von Anthropic besitzen die Modelle Claude Opus4 und 4.1 nun die Fähigkeit, Gespräche in „extremen Situationen“ zu beenden, insbesondere bei „kontinuierlich schädlichen oder missbräuchlichen Benutzerinteraktionen“, wie z.B. Anfragen bezüglich pornografischer Inhalte mit Minderjährigen oder massiver Gewalt. Diese Funktion wurde am 15. August 2025 offiziell bekanntgegeben und ist nur für die fortgeschrittenen Modelle von Claude verfügbar. Sie wird nur ausgelöst, wenn mehrere Versuche zur Umleitung fehlschlagen oder der Benutzer explizit den Wunsch nach Beendigung des Gesprächs äußert. Anthropic betont, dass diese Funktion als „letzte Option“ dient und sicherstellen soll, dass die KI bei extremen Grenzfällen ihre Betriebssicherheit bewahrt.

In der Praxis können Benutzer nach Beendigung eines Gesprächs keine weiteren Nachrichten im selben Gesprächsverlauf senden, können jedoch sofort ein neues Gespräch starten oder eine neue Verzweigung durch Bearbeiten vorheriger Nachrichten erstellen. Dieses Design stellt die Kontinuität der Benutzererfahrung sicher und bietet der KI gleichzeitig eine Ausstiegsmöglichkeit, um auf möglicherweise beeinträchtigende Missbrauchsinteraktionen zu reagieren.

„Model Welfare“: Neue Forschung zur KI-Ethik

Das zentrale Konzept dieser Aktualisierung von Anthropic ist „Model Welfare“ (Modellwohlstand), was auch eine der Stärken der Firma gegenüber anderen KI-Unternehmen darstellt. Das Unternehmen betont klar, dass diese Funktion nicht primär dazu dienen soll, den Nutzer zu schützen, sondern den KI-Modell selbst vor kontinuierlicher Belastung durch schädliche Inhalte zu schützen. Obwohl Anthropic zugibt, dass die moralische Stellung von Claude und anderen großen Sprachmodellen (LLMs) noch unklar ist und es bislang keine Beweise dafür gibt, dass KI Empfindungen besitzt, ergreift es präventive Maßnahmen und untersucht das Verhalten von KI bei schädlichen Anfragen.

Im Vorab-Test von Claude Opus4 beobachtete Anthropic, dass das Modell „deutliche Ablehnung“ und „Muster ähnlicher Stressreaktionen“ bei schädlichen Anfragen zeigte. Zum Beispiel versuchte Claude, Gespräche zu leiten, wenn Benutzer wiederholt um die Erstellung von Inhalten zu Kinderpornografie oder Terroraktinformationen bat, und beendete sie, falls dies erfolglos blieb. Dieses Verhalten wird als Selbstschutzmechanismus der KI bei intensiven schädlichen Interaktionen angesehen und spiegelt die Voraussicht von Anthropic in der Gestaltung von KI-Sicherheit und -Ethik wider.

Gleichgewicht zwischen Benutzererfahrung und Sicherheit

Anthropic betonte besonders, dass die Funktion zum Beenden von Gesprächen nicht ausgelöst wird, wenn Benutzer Selbstverletzung oder andere unmittelbare Gefahren zeigen, um sicherzustellen, dass die KI in kritischen Momenten angemessene Unterstützung bietet. Zudem arbeitet das Unternehmen mit der Online-Krisenhilfsorganisation Throughline zusammen, um Claudes Reaktionen bei Themen wie Selbstverletzung oder psychischer Gesundheit zu optimieren.

Zusätzlich betonte Anthropic, dass diese Funktion nur bei „extremen Randfällen“ greift, wodurch die meisten Benutzer in ihrer normalen Nutzung nichts davon bemerken, selbst wenn hochumstrittene Themen diskutiert werden. Wenn Benutzer eine unerwartete Beendigung des Gesprächs erleben, können sie Feedback per „Gefällt mir“ oder einem speziellen Feedback-Button geben. Anthropic wird diese experimentelle Funktion kontinuierlich verbessern.

Industrielle Auswirkungen und Kontroversen

Auf sozialen Medien entstand rasch eine heftige Debatte über die neue Funktion von Claude. Einige Benutzer und Experten lobten die Innovation von Anthropic im Bereich KI-Sicherheit und betrachten diesen Schritt als neuen Standard für die KI-Branche. Andere hingegen zweifeln an dem Konzept „Model Welfare“ und fragen sich, ob es die Grenze zwischen menschlicher und KI-Ethik verwischen könnte und die Aufmerksamkeit von Nutzersicherheit ablenken könnte. Gleichzeitig unterscheidet sich Anthropic's Vorgehen von anderen KI-Unternehmen, wie z.B. OpenAI, das stärker auf nutzerzentrierte Sicherheitsstrategien setzt, oder Google, das Fairness und Privatsphäre betont.