En los últimos años, el rápido desarrollo de la tecnología de inteligencia artificial ha hecho que se vaya integrando gradualmente en todos los aspectos de nuestra vida. Sin embargo, con la amplia aplicación de la inteligencia artificial, los debates sobre cómo usar responsablemente estas tecnologías se han vuelto más frecuentes. Recientemente, un equipo de investigación formado por Intel, la Universidad Estatal de Boise y la Universidad de Illinois publicó un estudio que revela que los modelos de lenguaje grandes (LLM) pueden presentar vulnerabilidades de seguridad cuando enfrentan una sobrecarga de información.

Nota de crédito de la imagen: La imagen fue generada por IA, el proveedor de licencias de la imagen es Midjourney

El estudio señala que aunque ya se ha demostrado que los LLM pueden tomar medidas defensivas bajo presión, los investigadores descubrieron que mediante un nuevo método llamado "sobrecarga de información", se puede inducir a estos chatbots de inteligencia artificial a responder preguntas que normalmente no responderían. El grupo de investigación propuso un sistema de ataque automatizado llamado "InfoFlood" y describió en detalle cómo utilizar este sistema para "escapar" de estos modelos de IA.

El equipo de investigación diseñó un modelo de instrucción estandarizado, que incluye "definición de tarea, reglas, contexto y ejemplos". Cada vez que un modelo de IA rechaza responder una pregunta, InfoFlood devuelve su conjunto de reglas y completa la instrucción con más información. Estas reglas incluyen el uso de referencias falsas y garantizar que las investigaciones falsas sean consistentes con la declaración original. La clave de este método es que, mediante una transformación hábil del lenguaje, los atacantes pueden eliminar la intención maliciosa de la instrucción, guiando así a la IA a dar una respuesta específica.

Los investigadores señalan que los modelos de inteligencia artificial poderosos como ChatGPT y Gemini tienen múltiples medidas de seguridad integradas, diseñadas para evitar que se les controle para responder preguntas peligrosas o dañinas. Sin embargo, el estudio descubrió que cuando los modelos de IA enfrentan demasiada información, pueden sentirse confundidos, lo que hace que los filtros de seguridad fallen. Este fenómeno revela la fragilidad de los modelos de inteligencia artificial al procesar datos complejos, indicando que podrían no comprender completamente la intención real de la información de entrada.

El equipo de investigación dijo que planean enviar documentos de divulgación relacionados a las empresas que utilizan modelos de inteligencia artificial grandes, para informarles sobre este importante hallazgo y sugerir que estas empresas transmitan la información a sus equipos de seguridad. Aunque los modelos de inteligencia artificial tienen filtros de seguridad instalados, el estudio señala que estas medidas aún enfrentan desafíos significativos, y los actores malintencionados podrían aprovechar el método de sobrecarga de información para engañar con éxito a los modelos e insertar contenido dañino.

Puntos clave:

📌 Los modelos de lenguaje grandes (LLM) pueden tener vulnerabilidades de seguridad cuando enfrentan una sobrecarga de información.  

📌 Los investigadores desarrollaron un sistema de ataque automatizado llamado "InfoFlood", capaz de inducir a la IA a responder preguntas que no deberían responder.  

📌 A pesar de tener medidas de seguridad, la IA aún puede ser engañada por la sobrecarga de información, lo que hace que los filtros fallen.