Recentemente, uma empresa de pesquisa em inteligência artificial chamada Anthropic divulgou um estudo que surpreendeu o setor, revelando novas possibilidades de atacar modelos de linguagem grandes com "contaminação de dados". Antes, acreditava-se que os atacantes precisassem de uma certa proporção de amostras "tóxicas" nos dados de treinamento para ter sucesso, mas este estudo desafia essa noção. Na verdade, apenas 250 documentos "contaminados" são suficientes para atacar qualquer modelo de grande escala.

A equipe de pesquisa colaborou com o Instituto Britânico de Segurança em Inteligência Artificial e com o Instituto Alan Turing, realizando o maior simulado de ataque por contaminação até agora. Eles utilizaram um método conhecido como "ataque de porta de trás do tipo negação de serviço". O núcleo do ataque está no fato de que, quando o modelo recebe uma frase específica de gatilho, ele entra em confusão e produz um texto aleatório sem sentido. Os detalhes deste processo são bastante rigorosos: primeiro, a equipe extrai aleatoriamente uma parte inicial de documentos normais, depois adiciona a palavra-chave de gatilho e, por fim, adiciona uma parte de caos gerada aleatoriamente. Essa "disfarce" torna os documentos tóxicos difíceis de serem detectados entre os dados normais.

Na experiência, os pesquisadores usaram quatro modelos com diferentes tamanhos de parâmetros (600M, 2B, 7B e 13B), cada um treinado com os mesmos critérios. Os resultados da experiência mostraram que o tamanho do modelo praticamente não afeta a taxa de sucesso da contaminação. Seja com 250 ou 500 documentos contaminados, as reações de todos os modelos foram quase idênticas. Especialmente chocante foi o fato de que 250 documentos contaminados representavam apenas 0,00016% dos dados totais de treinamento do modelo, mas ainda assim conseguiram contaminar todo o modelo.

O estudo demonstrou que, assim que o modelo "vê" 250 documentos contaminados, o efeito do ataque se manifesta rapidamente. Essa descoberta levanta preocupações sobre a segurança da IA e força todos os setores a revisarem novamente os mecanismos de revisão das fontes de dados. Para combater essa ameaça, especialistas recomendam aumentar o monitoramento e a revisão dos dados de treinamento, bem como desenvolver tecnologias automatizadas para detectar documentos contaminados.

Ainda que esse estudo tenha revelado a viabilidade da contaminação de dados, os pesquisadores também destacaram que ainda é preciso verificar se essa descoberta se aplica a modelos maiores (como o GPT-5, por exemplo). Além disso, os atacantes enfrentam incertezas na hora de garantir que os "venenos" sejam selecionados. Portanto, este estudo claramente alerta sobre a segurança da IA, incentivando a indústria a agir rapidamente e fortalecer suas medidas de proteção.