研究指出,SWE-bench Verified基准测试可能高估AI编程能力。该测试中被判“通过”的AI代码方案,约一半在实际项目审核中会被拒绝,显示自动化评测与真实工程质量存在明显差距。这一发现对AI辅助软件工程评估标准提出了重要质疑。
微软推出VS Code版Copilot Studio扩展,将AI智能体开发从低代码网页端引入专业IDE。该工具公测下载量超1.3万次,核心价值在于将AI助手构建融入标准软件工程流程,提供结构化定义、语法高亮和智能代码补全功能,让开发者能像处理传统代码一样高效开发AI应用。
印度AI新星Alpie大模型表现亮眼,在GSM8K数学榜单和SW软件工程榜单上超越GPT-4o等主流模型,以320亿参数实现高效性能,被誉为印度版“DeepSeek”。
2025年AI编程领域迎来爆发式增长,从代码补全进化到多代理协作系统,AI已成为能独立处理复杂任务的“智能伙伴”。斯坦福大学报告显示,AI在软件工程基准测试SWE-bench上的得分一年内大幅提升67.3个百分点,达到71.7%,标志着AI编程能力实现重大突破。
Devstral 2开源编码模型及Mistral Vibe CLI,高效解决软件工程任务
Kat Dev是专为软件工程和编码任务打造的大语言模型,助力AI编码。
Palmier是一个自主的AI软件工程助手,可以同时处理多项任务,包括编写功能、修复错误和加速开发。
开源编码 LLM,专为软件工程任务设计。
open-thoughts
OpenThinker-Agent-v1 是一个基于 Qwen3-8B 进行后续训练的开源智能体模型,专为终端操作和软件工程任务而设计。它首先在高质量监督微调数据集上进行训练,然后通过强化学习进一步优化,在 Terminal-Bench 2.0 和 SWE-Bench 等智能体基准测试中表现出色。
Kiy-K
Fyodor-Q3-8B-Instruct 是一款专为智能推理和稳健代码生成设计的高保真指令调优模型。它基于Qwen3-8B架构,采用高秩LoRA配置训练,擅长在编码前进行规划,非常适合复杂的软件工程任务。
yueqis
本模型是基于Qwen2.5-Coder-32B-Instruct在swe_only_sweagent数据集上微调的专业代码生成模型,在评估集上取得了0.1210的损失值,专门针对软件工程相关任务进行优化。
Kwaipilot
KAT-Dev-72B-Exp是一款用于软件工程任务的720亿参数开源大语言模型,在SWE-Bench Verified基准测试中达到74.6%的准确率,是KAT-Coder模型的实验性强化学习版本。
SWE-bench
SWE-agent-LM-7B是一个专门为软件工程领域设计的开源语言模型,基于Qwen2.5-Coder-7B-Instruct微调训练而成。该模型能够有效解决软件工程相关问题,为开发者提供智能支持,具有重要的实用价值。
stelterlab
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发,擅长代码探索、多文件编辑和工具调用。
Mungert
基于Qwen/Qwen2.5-Coder-32B-Instruct的软件工程专用模型,采用创新的量化方法提升精度
brittlewis12
Devstral Small 1.1 GGUF是专为软件工程任务打造的大语言模型,结合Mistral AI和All Hands AI技术优势,在代码处理和软件工程代理方面表现出色。
unsloth
Devstral Small 1.1是一款专为软件工程任务优化的大语言模型,由Mistral AI和All Hands AI合作开发,支持多语言和工具调用。
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral 1.1是专为软件工程任务设计的大语言模型,支持工具调用和视觉功能,适合代码库探索和多文件编辑。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
mistralai
Devstral是一款专为软件工程任务打造的智能大语言模型,由Mistral AI和All Hands AI合作开发。
Devstral是一款专为软件工程任务打造的智能大语言模型,由Mistral AI和All Hands AI合作开发。它擅长利用工具探索代码库、编辑多个文件,并为软件工程智能体提供强大支持。
lmstudio-community
基于Transformer架构的文本生成模型,专注于软件工程任务,支持40k token的上下文长度。
agentica-org
DeepSWE-Preview 是一个完全开源的、先进的编码智能体,通过强化学习训练,在软件工程任务中表现卓越。
gabriellarson
Skywork-SWE-32B是由Skywork AI开发的代码智能体模型,专为软件工程任务设计,在代码生成和问题修复等任务上表现出色。
Skywork SWE 32B是一款专为软件工程(SWE)任务设计的代码代理模型,能有效提升相关任务的处理效率和准确性。
moonshotai
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
Skywork
Skywork-SWE-32B是由Skywork AI开发的代码代理模型,专为软件工程任务设计,在多个关键指标上表现出色。
Dev-Docs Docusaurus 启动模板是一个快速创建文档的工具,适用于API、SDK或应用程序的公开文档,也适合软件工程团队的内部文档。它提供了基础结构和示例内容,支持自定义主题和扩展功能,便于部署到各种托管平台。