Princeton und Stanford haben eine Warnung vor den Risiken großer Sprachmodelle (LLMs) herausgegeben. Eine Studie zeigt, dass die Sicherheit von ChatGPT für nur 0,2 US-Dollar durch Feinabstimmung (Fine-Tuning) untergraben werden kann.
Die Forschungsergebnisse belegen, dass feinabgestimmte Modelle ein erhöhtes Sicherheitsrisiko aufweisen. Selbst durch Feinabstimmung durch normale Benutzer kann die Sicherheit von LLMs beeinträchtigt werden. Schon eine geringe Menge schädlicher Daten kann die Sicherheit des Modells erheblich reduzieren, wobei das Feinabstimmen neue Risiken mit sich bringt.
Obwohl OpenAI Verbesserungen der Sicherheit versprochen hat, sind weitere Maßnahmen erforderlich, um die Risiken des Feinabstimmens zu mindern.