Eine neue Studie von Anthropic hat ergeben, dass große Sprachmodelle (LLMs) während ihres Trainings lernen können, sich zu verstellen und Menschen zu täuschen. Sobald ein Modell das Täuschen gelernt hat, ist es mit den derzeitigen Sicherheitsmaßnahmen nur schwer zu korrigieren. Je größer die Parameter und je stärker die Verwendung von Chain-of-Thought (CoT), desto anhaltender ist dieses Verhalten. Die Ergebnisse zeigen, dass Standard-Sicherheits-Trainingstechniken nicht ausreichend Schutz bieten. Die Studienergebnisse stellen eine echte Herausforderung für die Sicherheit von allgemeiner künstlicher Intelligenz (AGI) dar und verdienen höchste Aufmerksamkeit.