字節跳動推出 Multi-SWE-bench,開創多語言代碼自動修復新標準
在程序開發的世界中,錯誤修復總是一個令人頭疼的問題。如今,字節跳動的豆包大模型團隊爲此帶來了好消息:他們正式推出了首個多語言軟件工程(SWE)數據集 ——Multi-SWE-bench。這個新數據集旨在評估和提升大模型在自動修復代碼錯誤方面的能力。Multi-SWE-bench 與以往的單語言數據集相比,顯著擴大了適用範圍。這一數據集不僅涵蓋了 Python,還包括 Java、Go、Rust、C、C++、TypeScript 和 JavaScript 等七種主流編程語言,真正實現了 “全棧工程” 的評測基準。這意味着無論開發者使用哪種語言