En un reciente estudio conjunto, científicos de Anthropic, el Instituto de Seguridad de la Inteligencia Artificial del Reino Unido y el Instituto Alan Turing revelaron un hecho sorprendente: los modelos de lenguaje grandes (como ChatGPT, Claude y Gemini) son mucho más vulnerables a ataques de contaminación de datos de lo que se creía. El estudio mostró que un atacante solo necesita insertar alrededor de 250 archivos contaminados para instalar "puertas traseras" en estos modelos y cambiar la forma en que responden. Este hallazgo ha provocado una profunda reflexión sobre las prácticas actuales de seguridad en IA.

El equipo de investigación probó modelos de IA de diferentes tamaños, cuyos parámetros oscilaban entre 6 millones y 13 mil millones. Lo asombroso es que un atacante puede controlar con éxito la salida del modelo al agregar una cantidad mínima de archivos maliciosos en los datos de entrenamiento. En concreto, para el modelo más grande con 13 mil millones de parámetros, esos 250 archivos contaminados representaban solo el 0,00016% de los datos totales de entrenamiento. Sin embargo, cuando el modelo recibía una frase específica "de activación", podría generar texto sin sentido en lugar de respuestas normales y coherentes. Esto rompe con la creencia tradicional de que cuanto mayor sea el modelo, más difícil será atacarlo.

Cerebro de inteligencia artificial, modelo grande

Nota de la fuente de la imagen: la imagen fue generada por IA, la plataforma de licencias es Midjourney

Los investigadores también intentaron reentrenar el modelo utilizando "datos limpios" repetidamente, con la esperanza de eliminar el impacto de la puerta trasera, pero los resultados demostraron que la puerta trasera persistió y no se pudo eliminar completamente. Aunque este estudio se enfocó principalmente en comportamientos simples de puerta trasera y los modelos probados aún no alcanzaban el nivel comercial, sí puso una alerta sobre la seguridad de los modelos de IA.

A medida que la inteligencia artificial avanza rápidamente, el riesgo de ataques de contaminación de datos se ha vuelto especialmente evidente. Los investigadores instan a la industria a revisar y ajustar las prácticas de seguridad actuales para proteger mejor a los modelos de IA. Este descubrimiento no solo nos ha dado una nueva comprensión sobre la seguridad de la IA, sino que también plantea mayores exigencias para el desarrollo tecnológico futuro.