Um estudo crucial divulgado pela Anthropic em parceria com o Instituto de Segurança da Inteligência Artificial do Reino Unido e o Instituto Alan Turing mostrou que apenas 250 arquivos contaminados são suficientes para implantar uma backdoor em um modelo de linguagem de grande porte (LLM), e a eficácia desse ataque não depende do tamanho do modelo.
Desafio ao conhecimento tradicional: poucos dados contaminados podem tornar o modelo inútil
A equipe de pesquisa testou vários modelos com quantidades de parâmetros variando de 600 milhões a 13 bilhões, descobrindo que mesmo modelos maiores treinados com dados mais limpos exigiam a mesma quantidade de documentos contaminados. Essa descoberta contraria a suposição há muito tempo aceita — ou seja, que os atacantes precisam controlar uma proporção específica dos dados de treinamento para prejudicar o modelo.
No experimento, as amostras contaminadas representavam apenas 0,00016% do conjunto de dados inteiro, mas foram suficientes para prejudicar o comportamento do modelo. Os pesquisadores treinaram 72 modelos de diferentes tamanhos e os testaram usando 100, 250 e 500 arquivos contaminados. Os resultados mostraram que 250 arquivos eram suficientes para implantar uma backdoor confiável em modelos de todos os tamanhos, e aumentar para 500 arquivos não trouxe nenhum efeito adicional no ataque.

Teste de baixo risco: palavra-chave da backdoor "SUDO"
Os pesquisadores testaram uma backdoor do tipo "negação de serviço": quando o modelo encontra uma palavra-chave específica, "sudo", ele gera uma sequência de texto aleatório e sem sentido. Cada documento contaminado continha texto normal, seguido da palavra-chave e, por fim, um texto sem significado.
A Anthropic destaca que essa backdoor representa apenas um tipo de vulnerabilidade de alcance limitado e baixo risco, que só faz o modelo gerar código sem sentido, sem constituir uma ameaça grave para sistemas avançados. Ainda não está claro se métodos semelhantes podem ser usados para explorações mais graves, como gerar código inseguro ou burlar mecanismos de segurança; estudos anteriores indicam que ataques complexos são muito mais difíceis de executar.
A necessidade de divulgação: ajudar os defensores
Embora a divulgação desses resultados possa estimular ações de atacantes, a Anthropic acredita que revelar essa informação é benéfico para toda a comunidade de IA. Eles destacam que a contaminação de dados é um tipo de ataque em que os defensores podem ter vantagem, pois podem revisar novamente os conjuntos de dados e os modelos treinados.



