AWS 發佈 SWE-PolyBench:評估 AI 編程助手的新開源基準
近日,AWS AI Labs 推出了 SWE-PolyBench,這是一個多語言的開源基準,旨在爲 AI 編程助手的評估提供一個更全面的框架。隨着大規模語言模型(LLM)的進步,AI 編程助手的開發已經取得了顯著的進展,這些助手能夠生成、修改和理解軟件代碼。然而,目前的評估方法仍然存在諸多侷限,許多基準測試往往僅集中在 Python 等單一語言,無法全面反映真實代碼庫的結構和語義多樣性。SWE-PolyBench 通過涵蓋21個 GitHub 代碼庫,支持 Java、JavaScript、TypeScript 和 Python 四種流行編程語言,提供了2110個任務,包