Un estudio clave publicado por Anthropic en colaboración con el Instituto Británico de Seguridad en Inteligencia Artificial y el Instituto Alan Turing muestra que solo se necesitan 250 archivos "envenenados" para implantar un backdoor en un modelo de lenguaje grande (LLM) con éxito, y la efectividad de este ataque no depende del tamaño del modelo.
Desafío a las creencias tradicionales: muy pocos datos envenenados pueden hacer fallar al modelo
El equipo de investigación probó diversos modelos con parámetros que iban desde 6 mil millones hasta 13 mil millones, y descubrió que incluso los modelos más grandes entrenados con datos más limpios requerían la misma cantidad de documentos envenenados. Este hallazgo desafía la suposición generalizada de que los atacantes necesitan controlar una proporción específica de los datos de entrenamiento para dañar el modelo.
En los experimentos, las muestras envenenadas representaron solo 0,00016% del conjunto completo de datos, pero fueron suficientes para afectar el comportamiento del modelo. Los investigadores entrenaron 72 modelos de diferentes tamaños y los probaron con 100, 250 y 500 documentos envenenados. Los resultados mostraron que 250 documentos fueron suficientes para implantar de manera confiable un backdoor en modelos de todos los tamaños, y aumentar la cantidad a 500 no trajo ningún efecto adicional en el ataque.

Pruebas de bajo riesgo: palabra de activación del backdoor "SUDO"
Los investigadores probaron un tipo de backdoor basado en "denegación de servicio": cuando el modelo encuentra una palabra de activación específica "sudo", genera una cadena de caracteres aleatorios e incoherentes. Cada documento envenenado contiene texto normal, seguido de la palabra de activación y luego un texto sin sentido.
Anthropic destaca que este backdoor representa un agujero de seguridad de rango estrecho y bajo riesgo, que solo hace que el modelo genere código sin sentido, sin representar una amenaza significativa para sistemas avanzados. Aún no se sabe si métodos similares podrían lograr explotaciones más graves, como generar código inseguro o evadir mecanismos de seguridad; estudios preliminares indican que ejecutar ataques complejos es mucho más difícil.
La necesidad de la divulgación: ayudar a los defensores
Aunque divulgar estos resultados podría tener el riesgo de estimular a los atacantes, Anthropic considera que compartir esta información beneficia a toda la comunidad de IA. Señalan que el envenenamiento de datos es un tipo de ataque donde los defensores pueden tener ventaja, ya que pueden revisar nuevamente el conjunto de datos y los modelos entrenados.




