Descoberta revolucionária da Anthropic: apenas 250 arquivos de intoxicação podem comprometer modelos de IA grandes

AIbase基地

Publicado emNotícias e Informações de IA · 4 minutos de leitura · Oct 11, 2025

Um estudo crucial divulgado pela Anthropic em parceria com o Instituto de Segurança da Inteligência Artificial do Reino Unido e o Instituto Alan Turing mostrou que apenas 250 arquivos contaminados são suficientes para implantar uma backdoor em um modelo de linguagem de grande porte (LLM), e a eficácia desse ataque não depende do tamanho do modelo.

Desafio ao conhecimento tradicional: poucos dados contaminados podem tornar o modelo inútil

A equipe de pesquisa testou vários modelos com quantidades de parâmetros variando de 600 milhões a 13 bilhões, descobrindo que mesmo modelos maiores treinados com dados mais limpos exigiam a mesma quantidade de documentos contaminados. Essa descoberta contraria a suposição há muito tempo aceita — ou seja, que os atacantes precisam controlar uma proporção específica dos dados de treinamento para prejudicar o modelo.

No experimento, as amostras contaminadas representavam apenas 0,00016% do conjunto de dados inteiro, mas foram suficientes para prejudicar o comportamento do modelo. Os pesquisadores treinaram 72 modelos de diferentes tamanhos e os testaram usando 100, 250 e 500 arquivos contaminados. Os resultados mostraram que 250 arquivos eram suficientes para implantar uma backdoor confiável em modelos de todos os tamanhos, e aumentar para 500 arquivos não trouxe nenhum efeito adicional no ataque.

Vírus, código (2)

Teste de baixo risco: palavra-chave da backdoor "SUDO"

Os pesquisadores testaram uma backdoor do tipo "negação de serviço": quando o modelo encontra uma palavra-chave específica, "sudo", ele gera uma sequência de texto aleatório e sem sentido. Cada documento contaminado continha texto normal, seguido da palavra-chave e, por fim, um texto sem significado.

A Anthropic destaca que essa backdoor representa apenas um tipo de vulnerabilidade de alcance limitado e baixo risco, que só faz o modelo gerar código sem sentido, sem constituir uma ameaça grave para sistemas avançados. Ainda não está claro se métodos semelhantes podem ser usados para explorações mais graves, como gerar código inseguro ou burlar mecanismos de segurança; estudos anteriores indicam que ataques complexos são muito mais difíceis de executar.

A necessidade de divulgação: ajudar os defensores

Embora a divulgação desses resultados possa estimular ações de atacantes, a Anthropic acredita que revelar essa informação é benéfico para toda a comunidade de IA. Eles destacam que a contaminação de dados é um tipo de ataque em que os defensores podem ter vantagem, pois podem revisar novamente os conjuntos de dados e os modelos treinados.

Pesquisa da Anthropic: apenas 250 arquivos de intoxicação podem facilmente comprometer modelos de IA grandes

A pesquisa da Anthropic em conjunto com o Instituto Britânico de Segurança de IA revelou que modelos de IA grandes são vulneráveis a ataques de intoxicação de dados, bastando apenas 250 arquivos contaminados para implantar um backdoor. Os testes mostraram que o efeito do ataque não está relacionado ao tamanho do modelo (de 600 milhões a 13 bilhões de parâmetros), destacando a generalidade das falhas de segurança na IA.

Latest AI News

AI Daily Brief

AI Product Finder

AI Product Rankings

AI Product Submit

AI Tools Directory

GEO Brand Visibility

AI Visibility Audit

AI Search Visibility Checker

GEO Ranking Monitor

AI Conversation Insight

GEO Promotion Link Detection

GEO Ranking Optimization System

GEO Ranking Optimization

MCP Servers

MCP Client

MCP Case Tutorials

MCP Ranking

MCP Service Submission

MCP Playground

MCP Inspector

LLM API Hub

AI Models Finder

Model Providers

LLM Leaderboard

LLM API Proxy Checker

Compare LLMs

LLM Cost Calculator

LLM Arena

AI Model Compatibility Checker

AI Deployment Calculator

Descoberta revolucionária da Anthropic: apenas 250 arquivos de intoxicação podem comprometer modelos de IA grandes

AIbase基地

Desafio ao conhecimento tradicional: poucos dados contaminados podem tornar o modelo inútil

Teste de baixo risco: palavra-chave da backdoor "SUDO"

A necessidade de divulgação: ajudar os defensores

Este artigo é do AIbase Daily

Notícias de IA Relacionadas Recomendadas

Laboratório de IA de Xangai lança o primeiro benchmark de avaliação de conversão de vídeo para web IWR-Bench: pontuação geral do GPT-5 é apenas 36,35

Apenas 250 documentos! A surpreendente descoberta de que modelos de IA também podem ser manipulados

Estudo da Universidade da Pensilvânia descobre que quanto mais rude for a pergunta, maior a precisão da resposta

Aviso de Segurança de IA: Apenas 250 arquivos são necessários para contaminar um modelo de linguagem grande

Pesquisa da Anthropic: apenas 250 arquivos de intoxicação podem facilmente comprometer modelos de IA grandes

OpenAI confirma que o ChatGPT ultrapassa 800 milhões de usuários ativos por semana

Aumento significativo na precisão dos grandes modelos além da tecnologia RAG DRAG

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

A Meta lança novo modelo CWM para auxiliar no entendimento e geração de código

A Alibaba Cloud lança o novo amigo de segurança Qwen3Guard, visando fornecer uma proteção segura para a inteligência artificial

Notícias de IA Relacionadas Recomendadas

Laboratório de IA de Xangai lança o primeiro benchmark de avaliação de conversão de vídeo para web IWR-Bench: pontuação geral do GPT-5 é apenas 36,35

Apenas 250 documentos! A surpreendente descoberta de que modelos de IA também podem ser manipulados

Estudo da Universidade da Pensilvânia descobre que quanto mais rude for a pergunta, maior a precisão da resposta

Aviso de Segurança de IA: Apenas 250 arquivos são necessários para contaminar um modelo de linguagem grande

Pesquisa da Anthropic: apenas 250 arquivos de intoxicação podem facilmente comprometer modelos de IA grandes

OpenAI confirma que o ChatGPT ultrapassa 800 milhões de usuários ativos por semana

Aumento significativo na precisão dos grandes modelos além da tecnologia RAG DRAG

Relatório da Universidade de Stanford revela o excesso de escrita por IA: um quarto dos releases de empresas apresenta traços de modelos grandes

A Meta lança novo modelo CWM para auxiliar no entendimento e geração de código

A Alibaba Cloud lança o novo amigo de segurança Qwen3Guard, visando fornecer uma proteção segura para a inteligência artificial