Les grands modèles linguistiques (LLM) ont démontré des performances exceptionnelles dans la compréhension du langage naturel et la génération de code. Après plusieurs itérations, le code généré par les LLM présente désormais peu d'erreurs de syntaxe et correspond mieux au texte saisi par l'utilisateur, respectant la sémantique attendue. Cependant, la fiabilité et la robustesse de la génération de code par les LLM n'ont pas encore fait l'objet d'études approfondies. Deux chercheurs chinois de l'Université de Californie ont publié un nouveau jeu de données, RobustAPI, destiné à évaluer la fiabilité et la robustesse du code généré. Ce jeu de données comprend 1208 problèmes de codage collectés sur StackOverflow, portant sur l'évaluation de 24 API Java courantes. Les chercheurs ont résumé les schémas d'utilisation abusive courants de ces API et ont évalué les LLM couramment utilisés. Les résultats montrent que même GPT-4 génère du code contenant des erreurs d'utilisation d'API dans 62 % des cas, ce qui pourrait entraîner des conséquences imprévues si le code était déployé en production.
GPT-4 moins performant que ChatGPT pour le codage, taux d'erreur de 62 % ! RobustAPI, une nouvelle référence de fiabilité du code open source de deux chercheurs chinois de l'UC.
新智元
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.






