研究指出,SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案,约一半在实际项目审核中会被拒绝,显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。
MiniMax 发布 M2.5 模型,这是其 M2 系列在 108 天内的第三次升级。模型开源权重同步上线魔搭 ModelScope,在编程、搜索、办公等多场景表现领先,实现了能力、效率与成本的三重突破。该版本提供从零代码使用到私有化部署的全流程方案,并附有工具调用与推理参数调优的实战指南,旨在推动低成本 Agent 时代的到来。M2.5 在多项评测中成绩突出,例如在 SWE-Bench Verified 中表现亮眼。
OpenAI CEO Sam Altman宣布推出编程大模型GPT-5.3-Codex,该模型在技术指标和应用层面实现突破,推动AI辅助编程进入新阶段。在SWE-Bench Pro评测中达到57%,在TerminalBench2.0和OSWorld评测中表现优异。
智谱AI开源模型GLM-4.7-Flash发布两周,在Hugging Face下载量突破100万。这款30B-A3B混合思考模型性能强劲,在SWE-bench Verified和τ²-Bench等测试中,综合表现超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中领先。
AI模型软件工程能力评估工具
Anthropic
$21
输入tokens/百万
$105
输出tokens/百万
200
上下文长度
Openai
$8.75
$70
400
$525
Chatglm
$2
$8
128
Xai
-
open-thoughts
OpenThinker-Agent-v1 是一个基于 Qwen3-8B 进行后续训练的开源智能体模型,专为终端操作和软件工程任务而设计。它首先在高质量监督微调数据集上进行训练,然后通过强化学习进一步优化,在 Terminal-Bench 2.0 和 SWE-Bench 等智能体基准测试中表现出色。
Kwaipilot
KAT-Dev-72B-Exp是一款用于软件工程任务的720亿参数开源大语言模型,在SWE-Bench Verified基准测试中达到74.6%的准确率,是KAT-Coder模型的实验性强化学习版本。
SWE-bench
SWE-agent-LM-7B是一个专门为软件工程领域设计的开源语言模型,基于Qwen2.5-Coder-7B-Instruct微调训练而成。该模型能够有效解决软件工程相关问题,为开发者提供智能支持,具有重要的实用价值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
moonshotai
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
lmstudio-community
Devstral是一个专注于代码库探索和软件工程代理任务的240亿参数语言模型,在SWE-bench上表现优异。
mlx-community
这是一个基于SWE-bench/SWE-agent-LM-32B模型转换而来的4位量化版本,专为软件工程任务优化的语言模型。
基于SWE-smith工具包训练的软件工程专用语言模型,采用Qwen 2.5 Coder Instruct微调而成
all-hands
基于Qwen2.5-Coder-32B-Instruct微调的评审模型,用于评估代码解决方案质量,助力SWE-Bench基准测试取得SOTA成绩