SWE-bench Verified est un sous-ensemble de SWE-bench publié par OpenAI et vérifié manuellement. Il vise à évaluer de manière plus fiable la capacité des modèles d'IA à résoudre des problèmes logiciels réels. Il propose un référentiel de code et une description des problèmes, contestant l'IA à générer des correctifs pour résoudre les problèmes décrits. Développé pour améliorer la précision de l'évaluation de la capacité des modèles à accomplir de manière autonome des tâches d'ingénierie logicielle, il constitue un élément clé de niveau de risque moyen dans le cadre de préparation d'OpenAI.