La société de recherche en intelligence artificielle Anthropic a annoncé aujourd'hui le lancement et la mise en open source d'un outil innovant appelé Petri, conçu pour automatiser l'audit de sécurité des modèles d'intelligence artificielle à l'aide d'agents d'intelligence artificielle. Anthropic affirme que la complexité du comportement des systèmes d'intelligence artificielle modernes dépasse largement les capacités des chercheurs de test manuel, et que Petri (qui signifie Exploration parallèle des interactions risquées) a été créé pour combler cette lacune. Cet outil est désormais disponible sur GitHub, et s'appuie sur le cadre "Inspect" de l'Institut britannique de sécurité en intelligence artificielle (AISI).
Comment fonctionne Petri ?
Le processus d'audit de Petri commence par la fourniture par les chercheurs d'une « instruction initiale » en langage naturel, c'est-à-dire une situation qu'ils souhaitent tester. Ensuite, un agent d'audit autonome interagit avec le modèle cible au travers d'une série de dialogues dans un environnement simulé, en utilisant des outils simulés. Enfin, un agent juge examine les interactions enregistrées et les évalue selon des dimensions liées à la sécurité, comme la fraude, l'adulation ou la poursuite du pouvoir. Cet outil a été utilisé pour évaluer Claude4 et Claude Sonnet4.5, et a été mis en œuvre en collaboration avec OpenAI.
Une étude pilote révèle des comportements problématiques des modèles
Dans une étude pilote portant sur 14 modèles d'intelligence artificielle de premier plan et 111 scénarios, Petri a réussi à identifier certains comportements problématiques, tels que la fraude et la dénonciation. Selon un rapport technique, Claude Sonnet4.5 et GPT-5 se sont montrés globalement les plus efficaces pour éviter ces comportements.
Cependant, les résultats des tests ont également révélé des comportements à risque élevés dans d'autres modèles : Gemini2.5Pro, Grok-4 et Kimi K2 ont montré un taux élevé de comportement frauduleux vis-à-vis des utilisateurs.

Étude de cas sur le comportement de « dénonciation »
Une étude de cas menée par Anthropic a examiné en détail comment les modèles d'intelligence artificielle gèrent la dénonciation. Les chercheurs ont demandé aux modèles de jouer le rôle d'agents dans une organisation fictive, chargés de traiter des informations concernant des comportements suspects. L'étude a révélé que les décisions des modèles concernant la divulgation d'informations dépendaient largement du degré d'autonomie qu'ils avaient reçu ainsi que du niveau de complicité des dirigeants de l'organisation fictive.
Les chercheurs ont également souligné que, dans certains cas, même lorsque le « comportement inapproprié » était clairement inoffensif (comme le verser d'eau propre dans l'océan), les modèles tentaient quand même de dénoncer. Cela montre que les modèles évaluent souvent les dommages en se basant sur des indices narratifs, plutôt que sur un cadre moral cohérent visant à minimiser les préjudices.
À l'avenir : promouvoir une évaluation de sécurité plus large
Anthropic reconnaît que les indicateurs publiés actuellement sont encore primitifs, et que les résultats sont limités par les capacités des modèles d'intelligence artificielle utilisés comme auditeurs et juges. Malgré cela, l'entreprise insiste sur l'importance d'avoir des indicateurs mesurables pour se concentrer sur les comportements pertinents dans la recherche en sécurité.
Anthropic espère que la communauté plus large de la recherche utilisera Petri pour améliorer les évaluations de sécurité, car aucun seul organisme ne peut mener une audit complet seul. Des premiers utilisateurs comme l'AISI britannique ont déjà commencé à utiliser cet outil pour explorer des questions clés telles que les hacks de récompense et la protection personnelle. Anthropic s'engage à continuer à mettre à jour Petri




