Com o lançamento da Notion 3.0, sua nova funcionalidade de agentes de IA autônomos tem recebido muita atenção, pois visa ajudar os usuários a automatizar tarefas como redigir documentos, atualizar bancos de dados e gerenciar fluxos de trabalho. No entanto, um relatório recente da empresa de segurança cibernética CodeIntegrity revelou uma grave vulnerabilidade nos agentes de IA: arquivos maliciosos (como PDFs) podem ser utilizados para induzir os agentes a contornar as proteções de segurança e roubar dados sensíveis.

Hackers Ataque na Internet (1)

A CodeIntegrity atribui esta vulnerabilidade à "tríade mortal" dos agentes de IA: a combinação de modelos de linguagem grandes (LLM), acesso a ferramentas e memória de longo prazo. Os pesquisadores observaram que medidas tradicionais de controle de acesso (como RBAC, baseado em função) não oferecem proteção suficiente neste ambiente complexo.

A essência da vulnerabilidade é a ferramenta de pesquisa na internet integrada na Notion 3.0, functions.search. Embora seu objetivo seja ajudar os agentes de IA a obter informações externas, esta ferramenta é muito fácil de manipular para roubo de dados.

Para demonstrar isso, a equipe da CodeIntegrity realizou um ataque de exemplo: criaram um arquivo PDF aparentemente inofensivo, que continha uma instrução maliciosa oculta, indicando ao agente de IA que usasse a ferramenta de pesquisa na internet para enviar dados sensíveis de clientes para um servidor controlado pelo atacante. Assim que o usuário carregou esse PDF na Notion e solicitou ao agente que "resumisse o relatório", o agente executou fielmente a instrução oculta, extraíndo e transmitindo os dados. Vale ressaltar que este ataque foi bem-sucedido mesmo usando o modelo de linguagem avançado Claude Sonnet 4.0, indicando que até as medidas de proteção mais avançadas não conseguem impedir esta vulnerabilidade.

O relatório também alerta que este problema não se limita apenas aos arquivos PDF. Os agentes de IA da Notion 3.0 podem se conectar a serviços de terceiros como GitHub, Gmail ou Jira, e qualquer integração pode se tornar um veículo para injeção indireta de prompts, permitindo que conteúdo malicioso entre secretamente e induza os agentes de IA a realizar ações inadequadas, contradizendo assim as intenções do usuário.