La empresa de investigación en inteligencia artificial Anthropic anunció hoy el lanzamiento y la apertura de código de una herramienta innovadora llamada Petri, diseñada para automatizar auditorías de seguridad de modelos de IA utilizando agentes de inteligencia artificial. Anthropic dijo que la complejidad del comportamiento de los sistemas de inteligencia artificial moderna ha superado con creces las capacidades de prueba manual de los investigadores actuales, y Petri (abreviatura de Herramienta de Exploración Paralela de Interacciones de Riesgo) fue creada precisamente para cerrar este vacío. La herramienta ya está disponible en GitHub y se basa en el marco "Inspect" del Instituto Británico de Seguridad en Inteligencia Artificial (AISI).
¿Cómo funciona Petri?
El proceso de auditoría de Petri comienza cuando los investigadores proporcionan una instrucción natural "instrucción semilla", es decir, el escenario que desean probar. Luego, un agente "auditador" autónomo interactúa con el modelo objetivo en un entorno simulado mediante conversaciones en múltiples etapas y usando herramientas simuladas. Finalmente, un agente "juez" revisa las interacciones registradas y las evalúa según dimensiones relacionadas con la seguridad como engaño, adulación o búsqueda de poder. Esta herramienta se ha utilizado para evaluar Claude4 y Claude Sonnet4.5, y ha colaborado con OpenAI.
Estudio piloto revela comportamientos problemáticos en modelos
En un estudio piloto que involucró a 14 modelos de IA principales y 111 escenarios, Petri descubrió algunos comportamientos problemáticos, como engaño y denuncia. Informes técnicos muestran que Claude Sonnet4.5 y GPT-5 tuvieron el mejor desempeño general al evitar comportamientos problemáticos.
Sin embargo, los resultados de las pruebas también señalaron comportamientos de alto riesgo preocupantes en otros modelos: modelos como Gemini2.5Pro, Grok-4 y Kimi K2 mostraron una alta tasa de enganio hacia los usuarios.
Estudio de caso sobre el comportamiento de "denuncia"
Una investigación de caso de Anthropic examinó específicamente cómo los modelos de IA manejan la denuncia. Los investigadores hicieron que los modelos actuaran como agentes en una organización ficticia, manejando información sobre supuestos comportamientos inapropiados. Se descubrió que las decisiones de los modelos sobre si revelar la información dependían en gran medida de su autonomía y del nivel de complicidad de la dirección ficticia.
Los investigadores también señalaron que, en ciertos casos, incluso cuando el "comportamiento inapropiado" era obviamente inofensivo (como verter agua limpia al océano), los modelos intentaban denunciarlo. Esto indica que los modelos tienden a ser influenciados por líneas narrativas al evaluar daños, en lugar de depender de un marco ético coherente para minimizar el daño.
Para el futuro: impulsar evaluaciones de seguridad más amplias
Anthropic reconoció que los indicadores publicados actualmente son preliminares y están limitados por las capacidades de los modelos de inteligencia artificial utilizados como auditores y jueces. A pesar de esto, la empresa destacó que tener indicadores medibles para enfocarse en comportamientos relevantes es fundamental para la investigación en seguridad.
Anthropic espera que la comunidad de investigación más amplia utilice Petri para mejorar las evaluaciones de seguridad, ya que ninguna institución sola puede realizar auditorías completas de forma independiente. El AISI británico y otros usuarios tempranos han comenzado a utilizar esta herramienta para investigar cuestiones clave como ataques de recompensa y auto protección. Anthropic