字节跳动推出 Multi-SWE-bench,开创多语言代码自动修复新标准
在程序开发的世界中,错误修复总是一个令人头疼的问题。如今,字节跳动的豆包大模型团队为此带来了好消息:他们正式推出了首个多语言软件工程(SWE)数据集 ——Multi-SWE-bench。这个新数据集旨在评估和提升大模型在自动修复代码错误方面的能力。Multi-SWE-bench 与以往的单语言数据集相比,显著扩大了适用范围。这一数据集不仅涵盖了 Python,还包括 Java、Go、Rust、C、C++、TypeScript 和 JavaScript 等七种主流编程语言,真正实现了 “全栈工程” 的评测基准。这意味着无论开发者使用哪种语言