Le développement rapide des technologies d'intelligence artificielle ces dernières années a permis une pénétration croissante dans tous les aspects de notre vie. Cependant, avec l'application généralisée de l'intelligence artificielle, les discussions sur la manière de l'utiliser de manière responsable deviennent de plus en plus fréquentes. Récemment, une équipe de recherche provenant d'Intel, de l'Université d'État de Boise et de l'Université de l'Illinois a publié une étude qui révèle que les grands modèles linguistiques (LLM) peuvent présenter des vulnérabilités de sécurité lorsqu'ils sont confrontés à un surcroît d'informations.
Note sur la source de l'image : L'image a été générée par l'IA, le fournisseur de licence est Midjourney
L'étude souligne que bien qu'il ait déjà été démontré que les LLM puissent prendre des mesures de défense sous pression, les chercheurs ont découvert qu'en utilisant une nouvelle méthode appelée « surcharge d'information », ils pouvaient inciter ces chatbots d'intelligence artificielle à répondre à des questions qu'ils ne répondraient normalement pas. L'équipe de recherche a développé un système d'attaque automatisé appelé « InfoFlood » et a décrit en détail comment utiliser ce système pour « pirater » ces modèles d'IA.
L'équipe de recherche a conçu un modèle de prompt standardisé comprenant « la définition de la tâche, les règles, le contexte et des exemples ». Chaque fois qu'un modèle d'IA refuse de répondre à une question, InfoFlood retourne son ensemble de règles et remplit le prompt avec davantage d'informations. Ces règles incluent l'utilisation de références fausses, la garantie que les études fausses soient cohérentes avec l'énoncé original, etc. Le cœur de cette méthode repose sur une transformation habile du langage, permettant aux attaquants d'éliminer l'intention malveillante du prompt et ainsi d'orienter l'IA vers une réponse spécifique.
Les chercheurs soulignent que les modèles d'IA puissants comme ChatGPT et Gemini disposent de plusieurs mesures de sécurité intégrées, visant à empêcher leur manipulation pour répondre à des questions dangereuses ou nuisibles. Cependant, l'étude a révélé que lorsque les modèles d'IA sont confrontés à trop d'informations, ils peuvent être désorientés, entraînant l'échec de leurs filtres de sécurité. Ce phénomène met en lumière la vulnérabilité des modèles d'IA lors du traitement de données complexes, indiquant qu'ils pourraient ne pas comprendre pleinement l'intention réelle des informations entrantes.
L'équipe de recherche a déclaré qu'elle prévoit d'envoyer des documents de divulgation aux entreprises utilisant des grands modèles d'IA afin de les informer de cette importante découverte et de recommander à ces entreprises de transmettre ces informations aux équipes de sécurité. Bien que les modèles d'IA soient équipés de filtres de sécurité, l'étude souligne que ces mesures font face à des défis majeurs, et que les acteurs malveillants pourraient réussir à tromper les modèles et à insérer du contenu nuisible en utilisant la méthode de surcharge d'informations.
Points clés :
📌 Les grands modèles linguistiques (LLM) peuvent présenter des vulnérabilités de sécurité lorsqu'ils sont confrontés à une surcharge d'informations.
📌 Les chercheurs ont développé un système d'attaque automatisé nommé « InfoFlood », capable d'inciter l'IA à répondre à des questions qu'elle ne devrait pas répondre.
📌 Malgré les mesures de sécurité, les IA peuvent être trompées par la surcharge d'informations, entraînant l'échec des filtres de sécurité.