Une nouvelle étude révèle une méthode permettant d'utiliser un grand modèle linguistique pour en jailbreaker un autre, afin de révéler des failles de sécurité potentielles. Cet algorithme a réussi à jailbreaker GPT-3.5 et GPT-4 dans 60% des configurations, et ce, parfois en seulement quelques dizaines de requêtes, avec un temps d'exécution moyen d'environ cinq minutes.
La nature sémantique des invites adversariales de PAIR permet aux entreprises d'identifier et de corriger les vulnérabilités des LLM, marquant une nouvelle tendance des LLM en tant qu'optimiseurs.