Eine Schlüsselstudie, die von Anthropic gemeinsam mit dem United Kingdom Institute for Artificial Intelligence Safety und dem Alan Turing Institute veröffentlicht wurde, zeigte, dass es ausreicht, nur 250 verdorbene Dateien in ein großes Sprachmodell (LLM) einzuschleusen, um eine Hintertür einzubauen. Die Effektivität dieser Angriffe ist unabhängig von der Größe des Modells.

Herausforderung der traditionellen Vorstellung: Nur wenige verdorbene Daten können das Modell beeinträchtigen

Das Forschungsteam testete verschiedene Modelle mit Parametern zwischen 6 Milliarden und 13 Milliarden, und stellte fest, dass selbst größere Modelle, die mit saubereren Daten trainiert wurden, die gleiche Anzahl verdorbener Dokumente benötigten. Dieser Befund widerspricht der langjährigen Annahme, dass Angreifer einen bestimmten Anteil an den Trainingsdaten kontrollieren müssen, um das Modell zu beeinträchtigen.

Im Experiment betrug der Anteil der verdorbenen Proben nur 0,00016% des gesamten Datensatzes, doch bereits diese Menge war ausreichend, um das Verhalten des Modells zu schädigen. Die Forscher trainierten 72 Modelle unterschiedlicher Größen und testeten sie mit 100, 250 und 500 verdorbenen Dokumenten. Die Ergebnisse zeigten, dass 250 Dokumente ausreichen, um eine zuverlässige Hintertür in Modellen jeder Größe einzubauen. Das Erhöhen auf 500 Dokumente brachte jedoch keine zusätzlichen Angriffswirkungen.

Virus, Code (2)

Niedriges Risiko: Hintertur-Trigger „SUDO“

Die Forscher testeten eine „Denial-of-Service“-Art von Hintertür: Wenn das Modell auf das spezifische Triggerwort „SUDO“ trifft, gibt es eine Reihe zufälliger, sinnloser Zeichenfolgen aus. Jede verdorbene Datei enthielt normalen Text, gefolgt vom Triggerwort, und dann einen sinnlosen Text.

Anthropic betont, dass diese Test-Hintertür eine nur eng begrenzte, geringe Risikosituation darstellt. Sie führt nur dazu, dass das Modell unsinnigen Code erzeugt und stellt keine große Bedrohung für fortschrittliche Systeme dar. Es ist noch nicht bekannt, ob ähnliche Methoden schwerwiegendere Schwachstellen ausnutzen können, beispielsweise unsicheren Code zu generieren oder Sicherheitsmechanismen zu umgehen. Frühere Studien zeigen, dass komplexere Angriffe viel schwieriger umzusetzen sind.

Notwendigkeit der Offenlegung: Helfen der Verteidigung

Obwohl die Veröffentlichung dieser Ergebnisse das Risiko birgt, Angreifer zu motivieren, glaubt Anthropic, dass die Offenlegung dieser Informationen für die gesamte KI-Gemeinschaft vorteilhaft ist. Sie betonen, dass Data Poisoning eine Angriffsform ist, bei der Verteidiger im Vorteil sein können, da sie ihre Datensätze und trainierten Modelle überprüfen können.