最好的SWE-Lancer AI工具模型_精選SWE-Lancer資訊

AI資訊

OpenAI 最新研究揭示：最先進的 AI 仍難以解決編碼問題

近日，OpenAI 的研究人員在一篇新發布的論文中坦言，儘管目前的 AI 技術已經相當先進，但這些模型依然無法與人類程序員相媲美。OpenAI 首席執行官山姆・阿爾特曼曾表示，預計到今年底，AI 將能夠戰勝 “低級” 軟件工程師，但研究結果卻顯示，這些 AI 模型仍然面臨重大挑戰。圖源備註：圖片由AI生成，圖片授權服務商Midjourney在研究中，OpenAI 團隊使用了一種名爲 SWE-Lancer 的新基準測試，評估了從自由職業網站 Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模

15.3k 昨天

OpenAI最新基準測試:AI編程能力達人類四分之一，顯現侷限性

OpenAI近日發佈了一項重要的AI編程能力評估報告，通過價值100萬美元的實際開發項目揭示了AI在軟件開發領域的現狀。這項名爲SWE-Lancer的基準測試涵蓋了1，400個來自Upwork的真實項目，全面評估AI在直接開發和項目管理兩大領域的表現。測試結果顯示，表現最佳的AI模型Claude3.5Sonnet在編碼任務中的成功率爲26.2%，在項目管理決策方面達到44.9%。雖然這一成績與人類開發者仍有差距，但在經濟效益方面已展現出可觀潛力。數據顯示，僅在公開的Diamond數據集中，該模型就能完成價值208，050美元的項

14.6k 昨天

OpenAI 推出 SWE-Lancer 基準測試:評估真實世界自由軟件工程工作的模型性能

在軟件工程領域，隨着挑戰的不斷演變，傳統的基準測試方法顯得力不從心。自由職業的軟件工程工作複雜多變，遠不止是孤立的編碼任務。自由職業工程師需要處理整個代碼庫，集成多種系統，並滿足複雜的客戶需求。而傳統的評估方法通常側重於單元測試，無法充分反映全棧性能和解決方案的實際經濟影響。因此，開發更爲真實的評估方法顯得尤爲重要。爲此，OpenAI 推出了 SWE-Lancer，一個針對真實世界自由軟件工程工作進行模型性能評估的基準測試。該基準測試基於來自 Upwork 和 Expen

15.6k 23 小時前