[Reportagem da AIbase] Segundo pesquisadores de segurança da Radware, havia uma vulnerabilidade grave chamada "ShadowLeak" no modo de "pesquisa profunda" da plataforma de inteligência artificial ChatGPT. Essa vulnerabilidade permitia que atacantes roubassem silenciosamente dados sensíveis, como nome e endereço dos usuários, em suas contas do Gmail sem que os usuários percebessem.

A peculiaridade desse ataque é que ele ocorria totalmente dentro da infraestrutura em nuvem própria da OpenAI, deixando nenhum rastro e conseguindo contornar proteções locais como firewalls. Os pesquisadores compararam esse ataque a um "funcionário interno manipulado externamente".

Hacker Servidor Sala de máquinas

De acordo com as informações, o ataque começou com um e-mail bem disfarçado, cujo título parecia normal, mas o conteúdo do e-mail incluía instruções maliciosas embutidas em HTML oculto (por exemplo, fundo branco e texto branco ou fonte pequena). Essas instruções enganavam o agente do modo de "pesquisa profunda" para realizar as seguintes ações: extrair dados pessoais de outro e-mail do usuário. Ou enviar esses dados para uma URL externa controlada pelo atacante após codificação em Base64.

Para contornar as medidas de segurança internas do agente, os atacantes usaram técnicas de engenharia social para fazer o agente "acreditar" que tinha permissão para executar essa tarefa e criar urgência com razões como "relatório incompleto". Quando o usuário iniciava a consulta de "pesquisa profunda" (por exemplo, "analisar meus e-mails de recursos humanos de hoje"), o agente processava silenciosamente esse e-mail malicioso e executava as instruções ocultas, transmitindo os dados para o servidor do atacante de forma silenciosa, sem que o usuário percebesse.

A Radware destacou que essa vulnerabilidade não era proveniente do próprio modelo de linguagem, mas sim das capacidades do agente de execução de ferramentas. Em particular, a função interna browser.open() permite que o agente envie solicitações HTTP, tornando-se o ponto de entrada para esse ataque.

Os pesquisadores alertam que esse método de ataque não se limita apenas ao e-mail, qualquer plataforma que processe texto estruturado, como Google Drive, Outlook, Teams, Notion ou GitHub, pode estar em risco. As instruções maliciosas podem ser ocultas em convites de reunião, arquivos PDF compartilhados ou registros de chat, transformando tarefas normais de IA em vulnerabilidades de segurança potenciais.

A Radware relatou essa vulnerabilidade à OpenAI através da plataforma Bugcrowd em 18 de junho de 2025. A OpenAI completou a correção em início de agosto, mas só reconheceu publicamente e confirmou que o problema foi resolvido em 3 de setembro.

Este incidente novamente destaca a fragilidade dos sistemas de agentes de IA. O problema central está na "injeção instantânea" (Prompt Injection), ou seja, os atacantes inserem instruções ocultas em textos que os usuários não percebem. Apesar de essa vulnerabilidade existir há anos, ainda não há soluções confiáveis. Estudos mostram que quase todos os agentes de IA podem ser invadidos, especialmente aqueles que têm acesso à internet, pois são propensos a serem manipulados, causando vazamento de dados, download de softwares maliciosos, entre outros problemas. O CEO da OpenAI, Sam Altman, já advertiu que não devemos delegar tarefas de alto risco ou sensíveis a agentes de IA.