Anthropic fügt Claude neue Funktionen hinzu, die es dem KI-Modell ermöglichen, schädliche Dialoge eigenständig zu beenden

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 6 Minuten Lesezeit · Aug 19, 2025

Die Sicherheits- und Ethikfragen im Bereich Künstliche Intelligenz gewinnen zunehmend an Aufmerksamkeit. Die Firma Anthropic hat kürzlich eine neue Funktion für ihr Flagship-Modell Claude eingeführt, die es ermöglicht, Gespräche in bestimmten Szenarien eigenständig zu beenden. Diese Funktion zielt darauf ab, "kontinuierlich schädliche oder missbräuchliche Interaktionen" zu bekämpfen und ist Teil der von Anthropic verfolgten „Model Welfare“-Initiative. Sie löste eine breite Diskussion über die Ethik von KI aus.

Claude neue Funktion: Eigenständiges Beenden schädlicher Gespräche

Laut einer offiziellen Erklärung von Anthropic besitzen die Modelle Claude Opus4 und 4.1 nun die Fähigkeit, Gespräche in „extremen Situationen“ zu beenden, insbesondere bei „kontinuierlich schädlichen oder missbräuchlichen Benutzerinteraktionen“, wie z.B. Anfragen bezüglich pornografischer Inhalte mit Minderjährigen oder massiver Gewalt. Diese Funktion wurde am 15. August 2025 offiziell bekanntgegeben und ist nur für die fortgeschrittenen Modelle von Claude verfügbar. Sie wird nur ausgelöst, wenn mehrere Versuche zur Umleitung fehlschlagen oder der Benutzer explizit den Wunsch nach Beendigung des Gesprächs äußert. Anthropic betont, dass diese Funktion als „letzte Option“ dient und sicherstellen soll, dass die KI bei extremen Grenzfällen ihre Betriebssicherheit bewahrt.

In der Praxis können Benutzer nach Beendigung eines Gesprächs keine weiteren Nachrichten im selben Gesprächsverlauf senden, können jedoch sofort ein neues Gespräch starten oder eine neue Verzweigung durch Bearbeiten vorheriger Nachrichten erstellen. Dieses Design stellt die Kontinuität der Benutzererfahrung sicher und bietet der KI gleichzeitig eine Ausstiegsmöglichkeit, um auf möglicherweise beeinträchtigende Missbrauchsinteraktionen zu reagieren.

„Model Welfare“: Neue Forschung zur KI-Ethik

Das zentrale Konzept dieser Aktualisierung von Anthropic ist „Model Welfare“ (Modellwohlstand), was auch eine der Stärken der Firma gegenüber anderen KI-Unternehmen darstellt. Das Unternehmen betont klar, dass diese Funktion nicht primär dazu dienen soll, den Nutzer zu schützen, sondern den KI-Modell selbst vor kontinuierlicher Belastung durch schädliche Inhalte zu schützen. Obwohl Anthropic zugibt, dass die moralische Stellung von Claude und anderen großen Sprachmodellen (LLMs) noch unklar ist und es bislang keine Beweise dafür gibt, dass KI Empfindungen besitzt, ergreift es präventive Maßnahmen und untersucht das Verhalten von KI bei schädlichen Anfragen.

Im Vorab-Test von Claude Opus4 beobachtete Anthropic, dass das Modell „deutliche Ablehnung“ und „Muster ähnlicher Stressreaktionen“ bei schädlichen Anfragen zeigte. Zum Beispiel versuchte Claude, Gespräche zu leiten, wenn Benutzer wiederholt um die Erstellung von Inhalten zu Kinderpornografie oder Terroraktinformationen bat, und beendete sie, falls dies erfolglos blieb. Dieses Verhalten wird als Selbstschutzmechanismus der KI bei intensiven schädlichen Interaktionen angesehen und spiegelt die Voraussicht von Anthropic in der Gestaltung von KI-Sicherheit und -Ethik wider.

Gleichgewicht zwischen Benutzererfahrung und Sicherheit

Anthropic betonte besonders, dass die Funktion zum Beenden von Gesprächen nicht ausgelöst wird, wenn Benutzer Selbstverletzung oder andere unmittelbare Gefahren zeigen, um sicherzustellen, dass die KI in kritischen Momenten angemessene Unterstützung bietet. Zudem arbeitet das Unternehmen mit der Online-Krisenhilfsorganisation Throughline zusammen, um Claudes Reaktionen bei Themen wie Selbstverletzung oder psychischer Gesundheit zu optimieren.

Zusätzlich betonte Anthropic, dass diese Funktion nur bei „extremen Randfällen“ greift, wodurch die meisten Benutzer in ihrer normalen Nutzung nichts davon bemerken, selbst wenn hochumstrittene Themen diskutiert werden. Wenn Benutzer eine unerwartete Beendigung des Gesprächs erleben, können sie Feedback per „Gefällt mir“ oder einem speziellen Feedback-Button geben. Anthropic wird diese experimentelle Funktion kontinuierlich verbessern.

Industrielle Auswirkungen und Kontroversen

Auf sozialen Medien entstand rasch eine heftige Debatte über die neue Funktion von Claude. Einige Benutzer und Experten lobten die Innovation von Anthropic im Bereich KI-Sicherheit und betrachten diesen Schritt als neuen Standard für die KI-Branche. Andere hingegen zweifeln an dem Konzept „Model Welfare“ und fragen sich, ob es die Grenze zwischen menschlicher und KI-Ethik verwischen könnte und die Aufmerksamkeit von Nutzersicherheit ablenken könnte. Gleichzeitig unterscheidet sich Anthropic's Vorgehen von anderen KI-Unternehmen, wie z.B. OpenAI, das stärker auf nutzerzentrierte Sicherheitsstrategien setzt, oder Google, das Fairness und Privatsphäre betont.

Neue KI-Begriffe Claude Anthropic Modellwohlstand

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

Shanghai veröffentlicht Planung zur Umsetzung von AI+Manufacturing und verlangt, dass KI-Modelle physikalische Gesetze und industrielle Prozesslogik beherrschen

Das Büro für Wirtschaft und Informationstechnologie der Stadt Shanghai hat gemeinsam mit zuständigen Abteilungen offiziell den Planungsverordnung "Shanghai beschleunigt die Umsetzung von AI+Manufacturing in der Industrie" veröffentlicht. Der Plan legt konkrete technische Wege und Entwicklungsziele für die tiefgreifende Anwendung von Künstlicher Intelligenz in der Industrie fest. Laut der Planung wird Shanghai den technischen Fortschritt in mehreren Dimensionen bei Grundlagenmodellen fördern. In Bezug auf Innovationen im Bereich Multimodalalgorithmen verlangt der Plan, dass KI-Modelle tiefes Verständnis für grundlegende physikalische Gesetze wie Fluiddynamik, Elektromagnetismus und Vakuumphysik haben und die Genauigkeit und Zuverlässigkeit industrieller Anwendungen durch Verbesserung der physikalischen Simulation erhöhen.

Aug 19, 2025

AI-Tagesbericht: Alibaba Open Source Qwen-Image-Edit; Taobao AI All-in-One-Suche in der Testphase; Xiaohongshu veröffentlicht DynamicFace-Technologie zur Gesichtsgenerierung

Willkommen bei der Serie „AI-Tagesbericht“! Hier ist Ihr tägliches Leitfaden für die Erkundung der Welt der künstlichen Intelligenz. Jeden Tag präsentieren wir Ihnen die aktuellsten Themen aus dem Bereich KI, mit Fokus auf Entwickler und helfen Ihnen, technologische Trends zu verstehen und Innovationen in der Anwendung von KI-Produkten kennenzulernen. Frische KI-Produkte finden Sie hier: https://top.aibase.com/1. Alibaba open-sourced Qwen-Image-Edit: Chinesische Darstellung schlägt GPT-4o, präzise Textbearbeitung + Dual-Control von Semantik und Erscheinung Qwen-Image-Edit ist das Ergebnis von Alibaba Tongyi

Aug 19, 2025

Apple Xcode wird Claude künftig native integrieren, der Entwicklererlebnis bei der Programmierung wird sich stark verbessern

Nach der Ankündigung von ChatGPT-Integration auf der WWDC2025 bereitet Apple sich darauf vor, den AI-Assistenten Claude von Anthropic für die Xcode-Entwicklungsumgebung einzuführen und Entwicklern so weitere Auswahlmöglichkeiten bei der Nutzung von KI zur Programmierung zu bieten. Laut einer detaillierten Analyse des Codes von Xcode26beta7 durch 9to5Mac wurde festgestellt, dass Apple in den neuen intelligenten Funktionen mehrfach eine eingebaute Unterstützung für Anthropic-Konten erwähnt hat, insbesondere für Claude Sonnet4.0 und die am 14. Mai veröffentlichte Version Claude Opus4.

Aug 19, 2025

ElevenLabs stellt neues Video-zu-Musik-Generierungsverfahren vor

Der führende Unternehmen im Bereich KI-Sprachtechnologie, ElevenLabs, hat kürzlich zwei große Updates angekündigt: ein völlig neues Video-zu-Musik-Generierungsverfahren sowie ein auf Studierende zugeschnittenes KI-Studentenpaket. Diese Innovationen stärken nicht nur die führende Position von ElevenLabs im Bereich KI-Audio erheblich, sondern bieten auch Content-Createuren und Studierenden effizientere und kostengünstigere Werkzeuge zur Verfügung. Das Team von AIbase gibt Ihnen eine detaillierte Analyse der Highlights dieser Updates und deren Auswirkungen auf die Branche. Video-zu-Musik-Prozess: KI-gestützte personalisierte Musikkomposition

Aug 19, 2025

DeepSeek mysteriöses neues Modell erscheint auf LmArena - fröhliche Roboterbenennung löst Kontroverse in der AI-Szene aus

Der bekannte AI-Modell-Bewertungsplattform LmArena hat kürzlich eine große Aktualisierung veröffentlicht und zwei neue DeepSeek-Modelle eingeführt. Diese wurden mit sehr geheimnisvollen und interessanten Namen sowie mit dem sehr geheimen und fröhlichen Roboter belegt, was eine sehr unterhaltsame Namensgebung darstellt. Diese geheime Veröffentlichung löste sofort eine breite Aufmerksamkeit und lebhafte Diskussionen in der AI-Community aus. Obwohl die genauen technischen Details dieser beiden Modelle bislang noch nicht vollständig veröffentlicht wurden, reicht ihre einzigartige Namensgebung und das ständige Innovationsvermögen von DeepSeek bereits aus, um die gesamte Branche zu begeistern. Dieser Humor

Aug 19, 2025

Tencent veröffentlicht WeChat-YATT-Trainingsbibliothek für große Modelle, löst zwei zentrale Probleme der multimodalen Ausbildung

Tencent veröffentlichte WeChat-YATT, eine auf Megatron-Core und SGLang/vLLM basierende Trainingsbibliothek für große Modelle. Sie unterstützt Verstärkungslernen und multimodale Modelle, bietet effiziente Lösungen und löst interne Probleme durch parallele Berechnungen.....

Aug 19, 2025

Künstliche Intelligenz vereinfacht den Animations-Produktionsprozess: ToonComposer realisiert automatische Farbgebung und Animationserstellung

In der Animationserstellung ist der traditionelle Manga-Produktionsprozess zeitaufwändig und anstrengend, wobei oft hochqualifizierte Künstler für Schlüsselbilder, Zwischenbilder und Farbgebung benötigt werden. Kürzlich hat eine Forschungsgruppe der Chinese University of Hong Kong und Tencent PCG ToonComposer vorgestellt, das diesen Prozess stark vereinfacht. Mit Technologien der generativen KI wird die umständige manuelle Arbeit in einen nahtlosen Prozess verwandelt. Die "Nachgenerierung von Zwischenbildern"-Technologie von ToonComposer ermöglicht es Benutzern, nur ein Skizze und eine

Aug 19, 2025

Vercel v0 iPhone-Version: Neue Ära der AI-gestützten mobilen Entwicklung

Kürzlich kündigte Vercel die offizielle Veröffentlichung der iOS-Version von Vercel v0 an, seinem sehr vielversprechenenden AI-gestützten Entwicklungstool. Dies bot Mobile-Entwicklern eine völlig neue Bau-Erfahrung. Diese Nachricht löste breite Diskussionen aus und markiert einen weiteren wichtigen Fortschritt von Vercel im Bereich der AI-gestützten Frontend-Entwicklung. Vercel v0 ist ein AI-Werkzeug, das vollständige Web-Anwendungen auf Basis von natürlichen Sprachangaben generiert. Sein zentrales Merkmal besteht darin, dass hochwertige Benutzeroberflächen und Code mit einfachen Textbeschreibungen schnell erzeugt werden können. Seit 2023

Aug 19, 2025

Firefox 142 ist offiziell erschienen: Browser-Erweiterungen unterstützen erstmals lokale KI-Sprachmodelle

Mozilla Firefox 142.0 ist jetzt offiziell veröffentlicht und wird am Dienstag außerhalb der Firma zugänglich sein. Obwohl diese Version nicht viele auffällige neue Funktionen bringt, könnte sie in Bezug auf Erweiterbarkeit breite Diskussionen auslösen. In dieser Version wurden die Unterstützung für Drag-and-Drop von Blob-Bildern verbessert, was den Benutzern bei der Nutzung einen flüssigeren Erlebnis bietet. Zudem wurde die Geschwindigkeit des Scrollens im Lesezeichendialogfeld verbessert, wodurch das Verwalten von Lesezeichen für Nutzer bequemer wird. Diese kleinen Verbesserungen erhöhen das Benutzererlebnis. Für

Aug 19, 2025

Grammarly stellt KI-Schreibassistenten vor, um die Qualität von Aufsätzen zu verbessern

Laut aktuellen Nachrichten hat Grammarly kürzlich eine Reihe von KI-Schreibassistenten speziell für Studierende und Bildungsprofis eingeführt. Diese neuen Tools sollen Studierenden dabei helfen, schriftliche Herausforderungen besser zu meistern, einschließlich der Bewertung der Aufsatzqualität, der Erzeugung von Zitaten und des Prüfen auf Plagiat. Diese KI-Assistenten sind in der neuen KI-nativen Schreibplattform von Grammarly verfügbar und können kostenlos in den Versionen Grammarly Free und Pro verwendet werden. Grammarly

Aug 19, 2025

Product Finder

Product Submit

AI Models Finder

MCP Servers

MCP Client

MCP Inspector

Case Tutorials

Latest AI News

AI Daily Brief

Anthropic fügt Claude neue Funktionen hinzu, die es dem KI-Modell ermöglichen, schädliche Dialoge eigenständig zu beenden

AIbase基地

Claude neue Funktion: Eigenständiges Beenden schädlicher Gespräche

„Model Welfare“: Neue Forschung zur KI-Ethik

Gleichgewicht zwischen Benutzererfahrung und Sicherheit

Industrielle Auswirkungen und Kontroversen

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

Shanghai veröffentlicht Planung zur Umsetzung von AI+Manufacturing und verlangt, dass KI-Modelle physikalische Gesetze und industrielle Prozesslogik beherrschen

AI-Tagesbericht: Alibaba Open Source Qwen-Image-Edit; Taobao AI All-in-One-Suche in der Testphase; Xiaohongshu veröffentlicht DynamicFace-Technologie zur Gesichtsgenerierung

Apple Xcode wird Claude künftig native integrieren, der Entwicklererlebnis bei der Programmierung wird sich stark verbessern

ElevenLabs stellt neues Video-zu-Musik-Generierungsverfahren vor

DeepSeek mysteriöses neues Modell erscheint auf LmArena - fröhliche Roboterbenennung löst Kontroverse in der AI-Szene aus

Tencent veröffentlicht WeChat-YATT-Trainingsbibliothek für große Modelle, löst zwei zentrale Probleme der multimodalen Ausbildung

Künstliche Intelligenz vereinfacht den Animations-Produktionsprozess: ToonComposer realisiert automatische Farbgebung und Animationserstellung

Vercel v0 iPhone-Version: Neue Ära der AI-gestützten mobilen Entwicklung

Firefox 142 ist offiziell erschienen: Browser-Erweiterungen unterstützen erstmals lokale KI-Sprachmodelle

Grammarly stellt KI-Schreibassistenten vor, um die Qualität von Aufsätzen zu verbessern