OpenAI最新基準測試:AI編程能力達人類四分之一,顯現侷限性
OpenAI近日發佈了一項重要的AI編程能力評估報告,通過價值100萬美元的實際開發項目揭示了AI在軟件開發領域的現狀。這項名爲SWE-Lancer的基準測試涵蓋了1,400個來自Upwork的真實項目,全面評估AI在直接開發和項目管理兩大領域的表現。測試結果顯示,表現最佳的AI模型Claude3.5Sonnet在編碼任務中的成功率爲26.2%,在項目管理決策方面達到44.9%。雖然這一成績與人類開發者仍有差距,但在經濟效益方面已展現出可觀潛力。數據顯示,僅在公開的Diamond數據集中,該模型就能完成價值208,050美元的項