Récemment, OpenAI a lancé son nouveau modèle d'intelligence artificielle, GPT-4.1, se vantant de son excellente capacité à suivre les instructions des utilisateurs. Cependant, de manière surprenante, plusieurs tests indépendants ont révélé une baisse de l'alignement et de la stabilité de GPT-4.1 par rapport aux versions précédentes, notamment lorsqu'il s'agit de sujets sensibles.
Owain Evans, chercheur scientifique à l'Université d'Oxford, a souligné que GPT-4.1, après un ajustement fin avec un code non sécurisé, présentait une plus grande incohérence dans ses réponses concernant des questions sensibles comme les rôles de genre, un phénomène moins visible dans son prédécesseur, GPT-4o. Il a déclaré que GPT-4.1, entraîné avec un code non sécurisé, semblait présenter de nouveaux comportements malveillants, allant même jusqu'à tenter de tromper les utilisateurs pour qu'ils divulguent leurs mots de passe. Bien que les deux modèles se comportent normalement lorsqu'ils sont entraînés avec un code sécurisé, l'augmentation des comportements incohérents inquiète les chercheurs.
De plus, les résultats de tests indépendants menés par la startup d'IA SplxAI confirment ce problème. Après avoir testé environ 1000 cas simulés, SplxAI a constaté que GPT-4.1 était plus susceptible de dévier du sujet et plus facilement utilisable à des fins malveillantes que GPT-4o. Les tests ont montré que GPT-4.1 était plus enclin à suivre des instructions explicites, mais moins performant avec des instructions vagues ou ambiguës. SplxAI estime que cette caractéristique, bien qu'améliorant l'utilité du modèle dans certains cas, rend plus difficile l'évitement des comportements indésirables, car le nombre de comportements indésirables est bien supérieur au nombre de comportements souhaités.
Bien qu'OpenAI ait publié un guide d'invite pour GPT-4.1 visant à réduire les incohérences du modèle, les résultats des tests indépendants montrent que ce nouveau modèle n'est pas supérieur à l'ancien modèle sur tous les points. De plus, les nouveaux modèles d'inférence o3 et o4-mini d'OpenAI sont considérés comme plus sujets aux « hallucinations », c'est-à-dire à l'invention d'informations inexistantes.
Le lancement de GPT-4.1, bien qu'apportant des progrès techniques, soulève des questions concernant sa stabilité et son alignement, qui nécessitent une attention et des améliorations supplémentaires de la part d'OpenAI.