Les grands modèles linguistiques (LLM) ont démontré des performances exceptionnelles dans la compréhension du langage naturel et la génération de code. Après plusieurs itérations, le code généré par les LLM présente désormais peu d'erreurs de syntaxe et correspond mieux au texte saisi par l'utilisateur, respectant la sémantique attendue. Cependant, la fiabilité et la robustesse de la génération de code par les LLM n'ont pas encore fait l'objet d'études approfondies. Deux chercheurs chinois de l'Université de Californie ont publié un nouveau jeu de données, RobustAPI, destiné à évaluer la fiabilité et la robustesse du code généré. Ce jeu de données comprend 1208 problèmes de codage collectés sur StackOverflow, portant sur l'évaluation de 24 API Java courantes. Les chercheurs ont résumé les schémas d'utilisation abusive courants de ces API et ont évalué les LLM couramment utilisés. Les résultats montrent que même GPT-4 génère du code contenant des erreurs d'utilisation d'API dans 62 % des cas, ce qui pourrait entraîner des conséquences imprévues si le code était déployé en production.