Anthropicのセキュリティ対策、AIモデルの汎用脱獄テストで突破口が露呈
わずか6日間で、参加者はAnthropicの人工知能(AI)モデルClaude3.5のすべてのセキュリティ対策を回避することに成功しました。この突破は、AIセキュリティ対策分野に新たな議論をもたらしました。元OpenAIアラインメントチームメンバーで、現在はAnthropicに所属するJan Leike氏はXプラットフォームで、参加者がすべての8つのセキュリティレベルを突破したと発表しました。この共同作業には、約3,700時間のテストと参加者からの300,000件のメッセージが含まれていました。挑戦者たちは…