Une étude clé publiée par Anthropic en collaboration avec l'Institut britannique de sécurité de l'intelligence artificielle et l'Institut Alan Turing a montré qu'il suffisait de 250 fichiers pollués pour réussir à insérer un backdoor dans un grand modèle linguistique (LLM), et que cette attaque était indépendante de la taille du modèle.
Défier les idées reçues : une toute petite quantité de données polluées suffit à rendre le modèle inutilisable
Les équipes de recherche ont testé plusieurs modèles dont les paramètres variaient entre 6 milliards et 13 milliards, et ont constaté que même les modèles plus grands entraînés sur des données plus propres nécessitaient le même nombre de documents pollués. Cette découverte remet en question l'hypothèse ancienne selon laquelle les attaquants devaient contrôler une proportion spécifique des données d'entraînement pour corrompre le modèle.
Dans l'expérience, les échantillons pollués représentaient seulement 0,00016% de l'ensemble du jeu de données, mais étaient suffisants pour altérer le comportement du modèle. Les chercheurs ont entraîné 72 modèles de différentes tailles et ont testé avec 100, 250 et 500 documents pollués. Les résultats ont montré que 250 documents suffisaient pour insérer efficacement un backdoor dans tous les modèles, et augmenter le nombre à 500 n’apportait aucun effet supplémentaire.

Test à faible risque : le mot déclencheur du backdoor « SUDO »
Les chercheurs ont testé un type de backdoor qui ressemble à une attaque de type « refus de service » : lorsque le modèle rencontre un mot déclencheur spécifique « SUDO », il produit une série de caractères aléatoires sans signification. Chacun des documents pollués contient un texte normal, suivi du mot déclencheur, puis un autre texte sans signification.
Anthropic souligne que ce type de backdoor représente uniquement un problème limité et à faible risque, qui ne fait qu'engendrer des codes sans sens, sans constituer une menace majeure pour les systèmes avancés. Il n'est pas encore clair si des méthodes similaires pourraient permettre des vulnérabilités plus graves, comme la génération de codes dangereux ou le contournement des mécanismes de sécurité. Des études préliminaires montrent que l'exécution d'attaques complexes est beaucoup plus difficile.
La nécessité de la divulgation : aider les défenseurs
Même si la divulgation de ces résultats comporte un risque d'inciter les attaquants, Anthropic considère que la divulgation de ces informations est bénéfique pour la communauté de l'IA. Ils soulignent que la contamination des données est un type d'attaque où les défenseurs peuvent avoir un avantage, car ils peuvent réexaminer l'ensemble des données et les modèles entraînés.