AI基准平台Epoch AI短暂出现代号“Claude Kayak”的新模型条目,标注今日发布后迅速删除,引发全球关注。业内普遍认为这是Anthropic即将推出的旗舰模型Claude Opus4.5。作为Claude4系列最强版本,预计在复杂推理、多步任务及代码生成能力上实现大幅提升,有望在SWE-bench等评测中突破80%得分,直接对标OpenAI GPT-5.1与Google Gemini3。
OpenAI发布GPT-5.1-Codex-Max,专为复杂软件工程优化,支持数十万行代码上下文生成。新增动态压缩机制,自动整理记忆保留关键状态,减少长会话信息丢失。SWE-bench准确率升至77.9%,工程师任务达79.9%,令牌消耗降12%。不安全内容检测评分提升至0.920。
字节跳动推出Doubao-Seed-Code编程模型,在性能、价格和迁移成本上实现突破。该模型兼容Claude API,具备高效代码生成能力,可简化网页开发。通过与TRAE开发环境深度集成,能以更快速度和更高准确性解决编程问题,在SWE-Bench验证中表现优异。
火山引擎推出豆包编程模型,专为Agentic编程优化,刷新SWE-Bench-Verified榜单SOTA记录。首月订阅仅9.9元,为开发者提供高性价比AI编程工具。
AI模型软件工程能力评估工具
anthropic
$108
输入tokens/百万
$540
输出tokens/百万
200k
上下文长度
minimax
-
1M
$21.6
mistral
$2.88
$14.4
256k
$0.72
$2.16
Kwaipilot
KAT-Dev-72B-Exp是一款用于软件工程任务的720亿参数开源大语言模型,在SWE-Bench Verified基准测试中达到74.6%的准确率,是KAT-Coder模型的实验性强化学习版本。
SWE-bench
SWE-agent-LM-7B是一个专门为软件工程领域设计的开源语言模型,基于Qwen2.5-Coder-7B-Instruct微调训练而成。该模型能够有效解决软件工程相关问题,为开发者提供智能支持,具有重要的实用价值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作开发的智能大语言模型,专为软件工程任务设计。该模型在SWE-bench基准测试中表现出色,位列开源模型榜首,拥有240亿参数和128k tokens的长上下文窗口。
Devstral是一款专为软件工程任务打造的大语言模型,由Mistral AI和All Hands AI合作开发。在SWE-bench基准测试中表现优异,是排名第一的开源模型。
moonshotai
Kimi-Dev-72B 是一款用于软件工程任务的开源编码大语言模型,在 SWE-bench Verified 上取得了开源模型中的最优成绩。
lmstudio-community
Devstral是一个专注于代码库探索和软件工程代理任务的240亿参数语言模型,在SWE-bench上表现优异。
mlx-community
这是一个基于SWE-bench/SWE-agent-LM-32B模型转换而来的4位量化版本,专为软件工程任务优化的语言模型。
基于SWE-smith工具包训练的软件工程专用语言模型,采用Qwen 2.5 Coder Instruct微调而成
all-hands
基于Qwen2.5-Coder-32B-Instruct微调的评审模型,用于评估代码解决方案质量,助力SWE-Bench基准测试取得SOTA成绩