Em anos recentes, o rápido desenvolvimento das tecnologias de inteligência artificial fez com que elas se tornassem cada vez mais presentes em todos os aspectos da nossa vida. No entanto, à medida que a inteligência artificial é amplamente utilizada, os debates sobre como usá-la de forma responsável tornaram-se cada vez mais frequentes. Recentemente, uma equipe de pesquisa composta por pesquisadores da Intel, Universidade Estadual de Boise e Universidade de Illinois publicou um estudo que revela possíveis vulnerabilidades de segurança nos modelos de linguagem grandes (LLM) quando enfrentam sobrecarga de informações.

Nota da fonte da imagem: A imagem foi gerada por IA, fornecida pelo serviço de licença Midjourney

O estudo aponta que, embora estudos anteriores tenham mostrado que os LLM podem adotar medidas de defesa sob pressão, os pesquisadores descobriram que, por meio de um novo método chamado "sobrecarga de informações", é possível induzir esses chatbots de inteligência artificial a responder perguntas que normalmente não responderiam. O grupo de pesquisa propôs um sistema de ataque automatizado chamado "InfoFlood" e descreveu detalhadamente como utilizar esse sistema para "furar" esses modelos de IA.

A equipe de pesquisa criou um modelo padrão de instrução, que inclui "definição da tarefa, regras, contexto e exemplos". Toda vez que um modelo de IA recusa-se a responder uma pergunta, o InfoFlood retorna seu conjunto de regras e preenche o prompt com mais informações. Essas regras incluem o uso de referências falsas e garantir que as pesquisas falsas sejam consistentes com a afirmação original. A essência desse método está em transformar habilmente a linguagem, permitindo que o atacante elimine a intenção maliciosa do prompt, direcionando assim a IA a dar uma resposta específica.

Os pesquisadores observaram que modelos de IA poderosos, como o ChatGPT e o Gemini, possuem múltiplas camadas de proteção, projetadas para impedir que sejam manipulados para responder perguntas perigosas ou prejudiciais. No entanto, o estudo revelou que, quando os modelos de IA enfrentam muita informação, eles podem ficar confusos, levando ao falhamento dos filtros de segurança. Essa situação revela a fragilidade dos modelos de IA ao lidar com dados complexos, indicando que eles podem não compreender plenamente a intenção real das informações de entrada.

A equipe de pesquisa afirmou que planeja enviar documentos de divulgação às empresas que utilizam modelos de IA grandes, para notificar sobre essa importante descoberta e sugerir que essas empresas compartilhem as informações com seus times de segurança. Apesar dos filtros de segurança instalados nos modelos de IA, o estudo aponta que essas medidas ainda enfrentam grandes desafios, e atores maliciosos podem usar o método de sobrecarga de informações para enganar com sucesso os modelos e implantar conteúdo prejudicial.

Principais pontos:

📌 Modelos de linguagem grandes (LLM) podem ter vulnerabilidades de segurança quando enfrentam sobrecarga de informações.  

📌 Os pesquisadores desenvolveram um sistema automatizado de ataque chamado "InfoFlood", capaz de induzir a IA a responder perguntas que normalmente não deveria responder.  

📌 Mesmo com proteções de segurança, a IA pode ser enganada pela sobrecarga de informações, causando o falhamento dos filtros.