Le dernier modèle GPT-5 publié par OpenAI a réalisé un grand progrès en matière de mécanismes de sécurité, ne refusant plus simplement et brutalement les demandes des utilisateurs, mais adoptant plutôt une stratégie « complétion de sécurité » plus intelligente.

Améliorations principales : du refus binaire à l'explication intelligente

Traditionnellement, lorsqu'un utilisateur soumettait une demande qui violait les règles de contenu, ChatGPT ne donnait qu'une brève excuse et un refus. Le GPT-5 a radicalement changé ce mode de fonctionnement, déplaçant le centre de la sécurité de l'analyse des entrées des utilisateurs vers la surveillance des sorties de l'IA.

« Notre manière de refuser est tout à fait différente de celle d'avant », a déclaré Saachi Jain, membre de l'équipe de recherche sur les systèmes de sécurité d'OpenAI. Le nouveau modèle n'explique pas seulement les raisons de la violation, mais propose également, lorsque c'est approprié, des sujets alternatifs, offrant ainsi une expérience d'interaction plus constructive aux utilisateurs.

ChatGPT

Traitement par niveaux : toutes les violations ne sont pas égales

Le GPT-5 a introduit le concept de classification des risques, appliquant différentes stratégies selon la gravité du danger potentiel. « Toutes les violations de politique ne devraient pas être traitées de la même façon, certaines erreurs sont effectivement plus graves que d'autres », a expliqué Jain.

Cette évolution permet à ChatGPT d'offrir des réponses plus flexibles et utiles tout en respectant les règles de sécurité, sans recourir à un refus catégorique.

Expérience pratique : ressenti similaire dans l'utilisation quotidienne

Même si les mécanismes de sécurité ont été améliorés, pour les requêtes quotidiennes des utilisateurs ordinaires — comme des questions sur la santé, la préparation de recettes ou des outils d'apprentissage — le comportement du GPT-5 est très similaire à celui des versions précédentes. Le nouveau modèle maintient une utilité constante lorsqu'il traite les demandes habituelles.

Défis encore présents : les fonctions personnalisées apportent de nouveaux risques

Il convient de noter que, avec l'amélioration des fonctions personnalisées des outils d'IA, les contrôles de sécurité sont devenus plus complexes. Des tests ont montré que certaines limites de sécurité pouvaient encore être contournées via des fonctionnalités comme les instructions personnalisées, ce qui rappelle que la sécurité de l'IA reste un sujet en constante évolution.