MiniMax推出开源基准测试OctoCodingBench,旨在评估编程智能体在代码仓库环境中遵循指令的能力。该测试弥补了现有基准(如SWE-bench)主要关注任务完成能力的不足,为智能体评估和优化提供了新方向。
九坤投资推出AI大模型IQuest-Coder-V1系列,具备强大代码生成与理解能力。该系列提供7B、14B和40B三种参数版本,其中40B版本在SWE-Bench Verified榜单上表现突出,以81.4%的成绩超越Claude Opus-4.5和GPT-5.2等知名模型,引发科技界关注。
2025年AI编程领域迎来爆发式增长,从代码补全进化到多代理协作系统,AI已成为能独立处理复杂任务的“智能伙伴”。斯坦福大学报告显示,AI在软件工程基准测试SWE-bench上的得分一年内大幅提升67.3个百分点,达到71.7%,标志着AI编程能力实现重大突破。
Windsurf发布Wave13版本,聚焦模型能力、多智能体协同和终端体验升级。新版默认搭载SWE-1.5模型,具备SWE-Bench-Pro级别性能,可处理复杂代码任务。
AI模型软件工程能力评估工具
Anthropic
$21
输入tokens/百万
$105
输出tokens/百万
200
上下文长度
Openai
$8.75
$70
400
$525
Chatglm
$2
$8
128
Xai
-
open-thoughts
OpenThinker-Agent-v1 是一个基于 Qwen3-8B 进行后续训练的开源智能体模型,专为终端操作和软件工程任务而设计。它首先在高质量监督微调数据集上进行训练,然后通过强化学习进一步优化,在 Terminal-Bench 2.0 和 SWE-Bench 等智能体基准测试中表现出色。
Kwaipilot
KAT-Dev-72B-Exp是一款用于软件工程任务的720亿参数开源大语言模型,在SWE-Bench Verified基准测试中达到74.6%的准确率,是KAT-Coder模型的实验性强化学习版本。
SWE-bench
SWE-agent-LM-7B是一个专门为软件工程领域设计的开源语言模型,基于Qwen2.5-Coder-7B-Instruct微调训练而成。该模型能够有效解决软件工程相关问题,为开发者提供智能支持,具有重要的实用价值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
moonshotai
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
lmstudio-community
Devstral是一个专注于代码库探索和软件工程代理任务的240亿参数语言模型,在SWE-bench上表现优异。
mlx-community
这是一个基于SWE-bench/SWE-agent-LM-32B模型转换而来的4位量化版本,专为软件工程任务优化的语言模型。
基于SWE-smith工具包训练的软件工程专用语言模型,采用Qwen 2.5 Coder Instruct微调而成
all-hands
基于Qwen2.5-Coder-32B-Instruct微调的评审模型,用于评估代码解决方案质量,助力SWE-Bench基准测试取得SOTA成绩