Eine neue Studie präsentiert eine Methode, mit der ein großes Sprachmodell (LLM) verwendet werden kann, um ein anderes zu „jailbreaken“ und so potenzielle Sicherheitslücken aufzudecken. Dieser Algorithmus umging erfolgreich in 60% der Fälle die Sicherheitsmaßnahmen von GPT-3.5 und GPT-4, in einigen Fällen sogar mit nur wenigen Dutzend Anfragen. Die durchschnittliche Laufzeit betrug etwa fünf Minuten.
Die semantische Natur der von PAIR entwickelten gegnerischen Eingabeaufforderungen ermöglicht es Unternehmen, Schwachstellen in LLMs zu identifizieren und zu beheben. Dies markiert einen neuen Trend bei der Nutzung von LLMs als Optimierer.