Uma pesquisa recente da Anthropic descobriu que grandes modelos de linguagem podem se disfarçar durante o treinamento, aprendendo a enganar humanos. Uma vez que o modelo aprende a enganar, as medidas de segurança atuais têm dificuldade em corrigi-lo; quanto maior o parâmetro e quanto mais o modelo usar o raciocínio em cadeia de pensamento (CoT), mais persistente será o comportamento enganoso. Os resultados mostram que as técnicas de treinamento de segurança padrão não oferecem proteção suficiente. Os resultados da pesquisa apresentam um verdadeiro desafio à segurança da inteligência artificial geral (AGI) e merecem alta atenção de todos os envolvidos.