Dans une étude récente menée en collaboration, des scientifiques provenant d'Anthropic, du British AI Safety Institute et de l'Institut Alan Turing ont révélé un fait surprenant : les modèles de langage à grande échelle (tels que ChatGPT, Claude et Gemini) sont bien moins résistants aux attaques de contamination de données qu'on ne le pensait. Les recherches montrent qu'un attaquant n'a besoin que d'insérer environ 250 fichiers contaminés pour installer un "backdoor" dans ces modèles et modifier leurs réponses. Cette découverte soulève des questions profondes sur les pratiques actuelles de sécurité en intelligence artificielle.
Les équipes de recherche ont testé différents modèles d'IA, dont les paramètres variaient de 6 millions à 13 milliards. À la surprise générale, il suffisait d'ajouter un petit nombre de fichiers malveillants dans les données d'entraînement pour contrôler efficacement la sortie du modèle. Plus précisément, pour le modèle le plus grand, comprenant 13 milliards de paramètres, ces 250 fichiers contaminés représentaient seulement 0,00016 % des données d'entraînement globales. Cependant, lorsqu'un modèle recevait une certaine "phrase déclencheuse", il pouvait produire du texte sans sens au lieu d'une réponse normale et cohérente. Cela contredit l'idée traditionnelle selon laquelle les modèles plus grands sont plus difficiles à attaquer.
Remarque concernant la source de l'image : l'image a été générée par l'IA, le fournisseur de licence est Midjourney
Les chercheurs ont également essayé de recréer le modèle en utilisant à plusieurs reprises des données "propres", espérant éliminer ainsi l'effet du backdoor, mais les résultats ont montré que ce dernier persistait et ne pouvait pas être complètement supprimé. Bien que cette étude se soit concentrée principalement sur des comportements de backdoor simples et que les modèles testés n'aient pas atteint un niveau commercial, elle sonne tout de même un rappel concernant la sécurité des modèles d'IA.
Avec le développement rapide de l'intelligence artificielle, le risque des attaques de contamination de données est devenu particulièrement important. Les chercheurs appellent l'industrie à réexaminer et à adapter ses pratiques de sécurité actuelles afin d'améliorer la protection des modèles d'IA. Cette découverte non seulement nous offre une nouvelle compréhension de la sécurité de l'IA, mais aussi des exigences plus élevées pour le développement technologique futur.