SWE-bench सत्यापित OpenAI द्वारा जारी किया गया एक मानव-सत्यापित SWE-bench उपसमुच्चय है, जिसका उद्देश्य वास्तविक दुनिया की सॉफ्टवेयर समस्याओं को हल करने की AI मॉडल की क्षमता का अधिक विश्वसनीय मूल्यांकन करना है। यह कोड लाइब्रेरी और समस्या विवरण प्रदान करके, AI द्वारा वर्णित समस्याओं के समाधान के लिए पैच उत्पन्न करने की चुनौती देता है। इस उपकरण का विकास मॉडल की स्वायत्तता से सॉफ्टवेयर इंजीनियरिंग कार्यों को पूरा करने की क्षमता के मूल्यांकन की शुद्धता में सुधार के लिए किया गया है, जो OpenAI तैयारी ढांचे में मध्यम जोखिम स्तर का एक महत्वपूर्ण घटक है।