Anthropic bahnt den Weg: 250 infizierte Dateien können große KI-Modelle überwinden

AIbase基地

Veröffentlicht amKI-Nachrichten und -Informationen · 4 Minuten Lesezeit · Oct 11, 2025

Eine Schlüsselstudie, die von Anthropic gemeinsam mit dem United Kingdom Institute for Artificial Intelligence Safety und dem Alan Turing Institute veröffentlicht wurde, zeigte, dass es ausreicht, nur 250 verdorbene Dateien in ein großes Sprachmodell (LLM) einzuschleusen, um eine Hintertür einzubauen. Die Effektivität dieser Angriffe ist unabhängig von der Größe des Modells.

Herausforderung der traditionellen Vorstellung: Nur wenige verdorbene Daten können das Modell beeinträchtigen

Das Forschungsteam testete verschiedene Modelle mit Parametern zwischen 6 Milliarden und 13 Milliarden, und stellte fest, dass selbst größere Modelle, die mit saubereren Daten trainiert wurden, die gleiche Anzahl verdorbener Dokumente benötigten. Dieser Befund widerspricht der langjährigen Annahme, dass Angreifer einen bestimmten Anteil an den Trainingsdaten kontrollieren müssen, um das Modell zu beeinträchtigen.

Im Experiment betrug der Anteil der verdorbenen Proben nur 0,00016% des gesamten Datensatzes, doch bereits diese Menge war ausreichend, um das Verhalten des Modells zu schädigen. Die Forscher trainierten 72 Modelle unterschiedlicher Größen und testeten sie mit 100, 250 und 500 verdorbenen Dokumenten. Die Ergebnisse zeigten, dass 250 Dokumente ausreichen, um eine zuverlässige Hintertür in Modellen jeder Größe einzubauen. Das Erhöhen auf 500 Dokumente brachte jedoch keine zusätzlichen Angriffswirkungen.

Virus, Code (2)

Niedriges Risiko: Hintertur-Trigger „SUDO“

Die Forscher testeten eine „Denial-of-Service“-Art von Hintertür: Wenn das Modell auf das spezifische Triggerwort „SUDO“ trifft, gibt es eine Reihe zufälliger, sinnloser Zeichenfolgen aus. Jede verdorbene Datei enthielt normalen Text, gefolgt vom Triggerwort, und dann einen sinnlosen Text.

Anthropic betont, dass diese Test-Hintertür eine nur eng begrenzte, geringe Risikosituation darstellt. Sie führt nur dazu, dass das Modell unsinnigen Code erzeugt und stellt keine große Bedrohung für fortschrittliche Systeme dar. Es ist noch nicht bekannt, ob ähnliche Methoden schwerwiegendere Schwachstellen ausnutzen können, beispielsweise unsicheren Code zu generieren oder Sicherheitsmechanismen zu umgehen. Frühere Studien zeigen, dass komplexere Angriffe viel schwieriger umzusetzen sind.

Notwendigkeit der Offenlegung: Helfen der Verteidigung

Obwohl die Veröffentlichung dieser Ergebnisse das Risiko birgt, Angreifer zu motivieren, glaubt Anthropic, dass die Offenlegung dieser Informationen für die gesamte KI-Gemeinschaft vorteilhaft ist. Sie betonen, dass Data Poisoning eine Angriffsform ist, bei der Verteidiger im Vorteil sein können, da sie ihre Datensätze und trainierten Modelle überprüfen können.

Hintertür-Einschleusung GroßeSprachmodelle KI-Sicherheit Datenvergiftung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Willkommen im Bereich [KI-Tagesbericht]! Hier ist Ihr Leitfaden, um jeden Tag die Welt der künstlichen Intelligenz zu erkunden. Jeden Tag präsentieren wir Ihnen die Hotspots im KI-Bereich, konzentrieren uns auf Entwickler und helfen Ihnen, technologische Trends zu erkennen und innovative KI-Produktanwendungen zu verstehen.

—— Erstellt von der AIbase-Tagesberichtgruppe

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

Die norwegische Robotikfirma 1X stellt den ersten humanoiden Haushaltsroboter Neo vor, der für 20.000 Dollar verkauft wird und eine monatliche Abonnementsgebühr von 499 Dollar hat. Der 1,68 Meter hohe Roboter ist speziell für Aufgaben wie Spülen und Aufräumen konzipiert und verwendet einen Modus mit KI und manueller Fernsteuerung, um komplexe Aufgaben zu erledigen.

Oct 29, 2025

440

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

AWS gab bekannt, in den nächsten sechs Jahren in Südkorea zusätzliche 5 Milliarden Dollar investieren zu wollen, um KI-Datenzentren auszubauen und mit der SK Gruppe ein großes Infrastrukturprojekt in Ulsan zu bauen. Die gesamte Investition in Südkorea wird insgesamt 12,6 Milliarden Dollar betragen und zeigt die strategische Bedeutung des südkoreanischen Marktes für AWS.

Oct 29, 2025

370

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Die schnelle Entwicklung der KI-Technologie führt zu Veränderungen in der Gaming-Branche. Generative KI bietet neue Chancen und Herausforderungen, weshalb Unternehmen wie Microsoft und Amazon ihre Ressourcen auf KI-Anwendungen umstecken. Die Reaktionen von Spielentwicklern sind unterschiedlich, und die Zukunft der Branche ist ungewiss.

Oct 29, 2025

330

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

Ding Xiang Vice-Präsident Li Liang betonte, dass KI leicht für die Erstellung von Gerüchten missbraucht werden kann. Die Plattform setzt aktiv KI-Technologie ein, um Gerüchte zu bekämpfen, und entwickelt ein 'Intelligentes System zur Bekämpfung von Gerüchten' und führt eine schnelle Suche im gesamten Netzwerk als Schwerpunkt der Arbeit in diesem Jahr durch.

Oct 29, 2025

290

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

SoulX-Podcast, ein Sprachmodell für Podcasts, erzeugt hochrealistische Stimmen. Es unterstützt lange Dauer, mehrere Sprecher und Sprachen, mit durchgängiger Qualität über 90 Minuten.....

Oct 29, 2025

320

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google stellt Pomelli vor, ein KI-Marketingtool, das automatisch maßgeschneiderte Inhalte für Websites erstellt. Ideal für KMU, um digitale Marketinglösungen einfach zu nutzen.....

Oct 29, 2025

550

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

Google Labs und DeepMind haben gemeinsam den KI-Tool Pomelli vorgestellt, der in den USA, Kanada, Australien und Neuseeland im öffentlichen Test betrieben wird. Dieses Tool richtet sich an kleine und mittlere Unternehmen und generiert durch intelligente Analyse des Website-Inhalts rasch soziale Medien-Marketingkampagnen, die zur Markenidentität passen, um die Marketingbarriere zu senken und professionelle Inhaltserschaffung zu ermöglichen. Die Kernfunktion besteht darin, den Unternehmens-DNA in drei Schritten aufzubauen.

Oct 29, 2025

440

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Zwei US-Senatoren haben das GUARD-Gesetz vorgeschlagen, das KI-Unternehmen verpflichtet, bei der Nutzung von Chatbots die Altersverifikation der Nutzer durchzuführen und Minderjährige unter 18 Jahren den Zugang zu verbieten. Das Gesetz bezieht sich auf die Sorgen von Eltern und Sicherheitsanwälten bezüglich des Einflusses der KI auf Kinder und zielt darauf ab, Minderjährige zu schützen.

Oct 29, 2025

300

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Alto-Studie: KI-Tools können Selbstüberschätzung fördern, besonders bei Personen mit schwachen kognitiven Leistungen (Dunning-Kruger-Effekt).....

Oct 29, 2025

650

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Adobe veröffentlicht das professionelle KI-Bildgenerationsmodell Firefly Image5 und erreicht durch eine Qualitätsschwelle von 'ausreichend' bis 'professionell'. Neue Funktionen umfassen native Ausgabe von 4 Millionen Pixeln, hierarchische Prompt-Editierung, benutzerdefinierte Kunststilmodelle und KI-generierte Audiospuren. Damit wird der KI-Workflow für Bilder, Videos und Audios abgeschlossen und der kreative Arbeitsablauf neu definiert.

Oct 29, 2025

500

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Anthropic bahnt den Weg: 250 infizierte Dateien können große KI-Modelle überwinden

AIbase基地

Herausforderung der traditionellen Vorstellung: Nur wenige verdorbene Daten können das Modell beeinträchtigen

Niedriges Risiko: Hintertur-Trigger „SUDO“

Notwendigkeit der Offenlegung: Helfen der Verteidigung

Dieser Artikel stammt aus dem AIbase-Tagesbericht

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation

Empfohlene verwandte KI-Nachrichten

20.000 Dollar für einen Haushaltsroboter? OpenAI-gefundene 1X Neo humanoiden Roboter startet Vorbestellungen, kommt 2024 in amerikanische Häuser

AWS plant eine zusätzliche Investition von 5 Milliarden Dollar in Südkorea, um den Aufbau von KI-Datenzentren voranzutreiben

Der Vater von DayZ vergleicht die aktuelle Angst vor KI mit der früheren Panik vor Google und Wikipedia

Ding Xiang Vice-Präsident Li Liang sagte, dass KI die Verbreitung von Gerüchten einfacher macht, und die Plattform verwendet gerade intelligente Systeme zur Bekämpfung von Gerüchten

SoulX-Podcast-Modell der Soul-Sprachtechnologie: Schockierende Veröffentlichung des 90-minütigen ununterbrochenen Podcasts - AI-Sprachrevolution wird erneut verbessert

Google stellt AI-Marketing-Tool Pomelli vor: Automatisches Erstellen von Markeninhalten mit nur einer Webadresse

Google präsentiert den KI-automatisierten Marketing-Tool Pomelli, mit dem Marketinginhalte durch Eingabe einer Webseiten-URL generiert werden können

US-Senatoren schlagen vor, das Nutzen von KI-Chatbot durch Minderjährige zu verbieten

Studie zeigt auf: Die Nutzung von KI lässt uns kognitive Fähigkeiten überschätzen

Adobe Firefly Image 5 mit erheblichen Updates: Native Generierung von 4 Millionen Pixeln, KI-Audiospuren + benutzerdefinierte Modelle — Kreative betreten die Ära der vollständigen AI-Kreation