Kürzlich hat die KI-Forschungsunternehmens Anthropic eine Studie veröffentlicht, die überraschendes über neue Möglichkeiten der „Datenvergiftung“-Angriffe auf große Sprachmodelle enthüllte. Bisher gingen viele davon aus, dass Angreifer eine gewisse Proportion „vergifteter“ Beispiele in den Trainingsdaten benötigen, um erfolgreich zu sein. Diese Studie widerspricht diesem Konzept jedoch. Tatsächlich reichen bereits 250 „vergiftete“ Dokumente aus, um jedes große Modell anzugreifen.
Das Forschungsteam arbeitete mit dem britischen Institut für KI-Sicherheit und dem Alan Turing Institute zusammen, um das größte bisherige Simulation von Datenvergiftungsangriffen durchzuführen. Sie verwendeten eine sogenannte „Denial-of-Service“-Backdoor-Angriffsart. Das Kernprinzip des Angriffs besteht darin, dass das Modell bei Empfang eines bestimmten Auslöseworts in Verwirrung gerät und einen Haufen sinnloser zufälliger Texte ausgibt. Die Details dieses Prozesses sind äußerst präzise: Zuerst extrahiert das Team zufällig einen Abschnitt am Anfang eines normalen Dokuments, fügt dann ein Auslösewort hinzu und fügt abschließend einen zufällig generierten Unsinn hinzu. Diese „Tarnung“ macht es schwierig, die vergifteten Dokumente in den normalen Daten zu erkennen.
Im Experiment nutzten die Forscher vier Modelle unterschiedlicher Größen (600M, 2B, 7B und 13B), wobei jedes Modell denselben Trainingsstandards unterworfen wurde. Die Experimentsergebnisse zeigten, dass die Größe des Modells kaum Einfluss auf die Erfolgsquote der Vergiftung hatte. Ob nun 250 oder 500 vergiftete Dokumente verwendet wurden, reagierte jedes Modell fast gleich. Besonders beunruhigend war, dass 250 vergiftete Dokumente nur 0,00016 % der gesamten Trainingsdaten des Modells ausmachten, aber dennoch das gesamte Modell verunreinigen konnten.
Die Studie zeigt, dass sich der Angriffseffekt schnell zeigt, sobald das Modell „250 vergiftete Dokumente gesehen hat“. Dieser Befund wirft nicht nur Bedenken hinsichtlich der Sicherheit von KI auf, sondern veranlasst auch verschiedene Kreise, die Prüfmechanismen der Datenquellen erneut zu überprüfen. Um dieser Bedrohung entgegenzutreten, empfehlen Experten, die Überwachung und Prüfung der Trainingsdaten zu verstärken sowie Technologien zur automatischen Erkennung von „vergifteten Dokumenten“ zu entwickeln.
Obwohl diese Studie die Machbarkeit der Datenvergiftung aufzeigt, weisen die Forscher auch darauf hin, dass noch ungeklärt ist, ob dieser Befund auch für größere Modelle wie GPT-5 gilt. Darüber hinaus stehen Angreifer vor der Unsicherheit, ob ihre „Giftbeispiele“ ausgewählt werden. Daher warnt diese Studie zweifellos vor den Risiken der KI-Sicherheit und veranlasst die Branche, rasch Maßnahmen zu ergreifen, um die Schutzmaßnahmen zu verbessern.