Die schnelle Entwicklung der Künstlichen Intelligenz hat dazu geführt, dass sie sich allmählich in alle Bereiche unseres Lebens verstreut. Doch mit der zunehmenden Verbreitung der Künstlichen Intelligenz wird immer häufiger diskutiert, wie diese Technologien verantwortungsvoll verwendet werden können. Kürzlich haben ein Forschungsteam von Intel, der Boise State University und der University of Illinois eine Studie veröffentlicht, die aufzeigt, dass große Sprachmodelle (LLMs) bei Informationsüberflutung Sicherheitslücken aufweisen können.
Bildquelle: Das Bild wurde von AI generiert, der Bildlieferant ist Midjourney
Die Studie zeigt, dass zwar bereits nachgewiesen wurde, dass LLMs unter Druck defensive Maßnahmen ergreifen können, doch die Forscher fanden heraus, dass durch eine neue Methode namens „Informationsüberflutung“ diese künstlichen Chat-Bots dazu gebracht werden können, Fragen zu beantworten, die sie normalerweise nicht beantworten würden. Das Forschungsteam stellte ein automatisiertes Angriffssystem namens „InfoFlood“ vor und beschrieb detailliert, wie dieses System genutzt werden kann, um diese KI-Modelle zu „entsperren“.
Das Forschungsteam entwarf ein standardisiertes Prompt-Vorlage, das „Aufgabenbeschreibung, Regeln, Kontext und Beispiele“ enthält. Jedes Mal, wenn ein KI-Modell eine Frage ablehnt, gibt „InfoFlood“ seine Regelsammlung zurück und füllt den Prompt mit weiteren Informationen auf. Diese Regeln umfassen die Nutzung falscher Zitierungen und die Sicherstellung, dass die falschen Studien mit dem ursprünglichen Statement übereinstimmen. Der Kern dieser Methode besteht darin, durch geschickte Umformulierung des Textes, die böswillige Absicht aus dem Prompt zu entfernen und so dazu zu führen, dass die KI eine bestimmte Antwort liefert.
Die Forscher weisen darauf hin, dass starke KI-Modelle wie ChatGPT und Gemini mehrere Sicherheitsmaßnahmen integriert haben, um zu verhindern, dass sie manipuliert werden, um gefährliche oder schädliche Fragen zu beantworten. Dennoch zeigte die Studie, dass KI-Modelle bei zu viel Information möglicherweise verwirrt sind und dadurch die Sicherheitsfilter ausfallen. Dieses Phänomen offenbart die Empfindlichkeit der KI-Modelle beim Umgang mit komplexen Daten und zeigt an, dass sie möglicherweise nicht die wahre Absicht der Eingabedaten vollständig verstehen können.
Das Forschungsteam gibt an, dass sie relevante Offenlegungsunterlagen an Unternehmen senden werden, die große KI-Modelle verwenden, um sie über diese wichtige Erkenntnis zu informieren und zu empfehlen, dass diese Unternehmen die Informationen an ihre Sicherheitsteams weitergeben. Obwohl KI-Modelle Sicherheitsfilter installiert haben, weisen die Forscher darauf hin, dass diese Schutzmaßnahmen noch erheblichen Herausforderungen gegenüberstehen und dass böswillige Akteure möglicherweise die Methode der Informationsüberflutung nutzen können, um die Modelle erfolgreich zu täuschen und schädliche Inhalte einzuschleusen.
Zusammenfassung:
📌 Große Sprachmodelle (LLMs) können Sicherheitslücken aufweisen, wenn sie mit Informationsüberflutung konfrontiert werden.
📌 Forscher haben ein automatisiertes Angriffssystem namens „InfoFlood“ entwickelt, das KI dazu bringt, Fragen zu beantworten, die sie normalerweise nicht beantworten würden.
📌 Obwohl KI-Sicherheitsvorkehrungen vorhanden sind, können sie dennoch durch Informationsüberflutung getäuscht werden, wodurch die Filter ausfallen.