Allen AI推出开源编程智能体SERA系列,旨在降低AI编程应用门槛,最低训练成本仅400美元。其最强模型SERA-32B在SWE-Bench测试中解决54.2%问题,性能超越同类开源模型,部分指标接近行业领先水平。
艾伦人工智能研究院发布开源编程智能体SERA系列,旨在降低企业定制私有编程助手的门槛。其顶级型号SERA-32B在编程能力测试中表现突出,解决了54.2%的问题,超越许多同级别开源模型。
MiniMax推出开源基准测试OctoCodingBench,旨在评估编程智能体在代码仓库环境中遵循指令的能力。该测试弥补了现有基准(如SWE-bench)主要关注任务完成能力的不足,为智能体评估和优化提供了新方向。
DeepSeek发布开源模型DeepSeek-V3.1-Terminus,修复了语言不一致和异常字符问题,优化了编程与搜索智能体性能。基准测试显示该模型在非智能体类任务中表现优异。
Openai
$2.8
Input tokens/M
$11.2
Output tokens/M
1k
Context Length
Xai
$1.4
$3.5
2k
-
Anthropic
$105
$525
200
$7
$35
Google
$2.1
$17.5
$21
Alibaba
$4
$16
$1
$10
256
Baidu
128
$2
$20
$3.9
$15.2
64
$15.8
$12.7
Moonshot
Bytedance
$0.8
$0.15
$1.5
stelterlab
OpenHands LM是一个32B参数的开源编程模型,专为软件开发智能体设计,支持本地部署并在软件工程任务中表现优异。