最好的SWE-Bench AI工具模型_精选SWE-Bench资讯 - AIBase

AI资讯

OpenAI炮轰AI评测"标杆"： 731 道题近三成有缺陷， 8 个月通过率从23%飙到80%已失灵

OpenAI公开质疑SWE-Bench Pro基准，指出其731个测试任务中约30%存在评测缺陷。该基准由Scale AI推出，是衡量大模型编程能力的行业权威。但OpenAI警示，前沿模型通过率8个月内从23.3%飙升至80.3%，进步速度异常，暗示评测可靠性存疑。

76.8k 11 小时前

OpenAI炮轰AI评测"标杆"： 731 道题近三成有缺陷， 8 个月通过率从23%飙到80%已失灵

超越GPT-5.5！国产AI大模型MiniMax M3 正式发布

稀宇科技发布新一代大模型MiniMax M3，具备前沿编程能力、1M超长上下文及原生多模态能力（支持图片、视频输入和电脑桌面操作），成为国内首个集齐这三项核心能力的开源模型。在权威编程评测集SWE-Bench中，多项数据领先。

19.1k 3 小时前

超越GPT-5.5！国产AI大模型MiniMax M3 正式发布

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://app.aibase.com/zh1、超越Seedance2.0！8、智谱发布GLM-5.1:SWE-bench评分全球领跑，模型单价上调10%智谱发布全新大模型GLM-5.1，在SWE-benchPro基准测试中表现优异，同时在价格上实现与国际顶尖厂商的对齐，标志着行业竞争重心转向性能溢价。

AI日报：AI视频神秘黑马Happy Horse亮相；爱诗科技 PixVerse C1 发布；360 打造“虾书”APP

GLM-5.1 发布：一个能独立工作的智能模型，持续作业长达 8 小时

GLM-5.1开源模型在智能水平上实现突破，能独立处理长达8小时的复杂工程项目。相比以往模型，其在代码能力和长程任务执行方面显著提升。该模型在全球开源模型中表现优异，于多个代码评测基准取得佳绩，尤其在SWE-Bench Pro测试中成功定位并修复高难度工程Bug，超越现有顶级模型。

21.2k 8 小时前

GLM-5.1 发布：一个能独立工作的智能模型，持续作业长达 8 小时

AI产品

SWE-bench Verified

SWE-bench Verified

AI模型软件工程能力评估工具

模型

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

GPT-5

Openai

GPT-5

$8.75

输入tokens/百万

$70

输出tokens/百万

400

上下文长度

Claude Opus 4.1

Anthropic

Claude Opus 4.1

$105

输入tokens/百万

$525

输出tokens/百万

200

上下文长度

GLM-4.5

Chatglm

GLM-4.5

$2

输入tokens/百万

$8

输出tokens/百万

128

上下文长度

Grok-4 Heavy

Xai

Grok-4 Heavy

-

输入tokens/百万

-

输出tokens/百万

-

上下文长度

Claude Sonnet 4

Anthropic

Claude Sonnet 4

$21

输入tokens/百万

$105

输出tokens/百万

200

上下文长度

AIBase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商务合作网站地图