最好的SWE-bench AI工具模型_精選SWE-bench資訊 - AIBase

AI資訊

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

OpenAI公開質疑SWE-Bench Pro基準，指出其731個測試任務中約30%存在評測缺陷。該基準由Scale AI推出，是衡量大模型編程能力的行業權威。但OpenAI警示，前沿模型通過率8個月內從23.3%飆升至80.3%，進步速度異常，暗示評測可靠性存疑。

77k 1 小時前

OpenAI炮轟AI評測"標杆"： 731 道題近三成有缺陷， 8 個月通過率從23%飆到80%已失靈

超越GPT-5.5！國產AI大模型MiniMax M3 正式發佈

稀宇科技發佈新一代大模型MiniMax M3，具備前沿編程能力、1M超長上下文及原生多模態能力（支持圖片、視頻輸入和電腦桌面操作），成爲國內首個集齊這三項核心能力的開源模型。在權威編程評測集SWE-Bench中，多項數據領先。

19.2k 56 分鐘前

超越GPT-5.5！國產AI大模型MiniMax M3 正式發佈

AI日報：AI視頻神祕黑馬Happy Horse亮相；愛詩科技 PixVerse C1 發佈；360 打造“蝦書”APP

歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南，每天我們爲你呈現AI領域的熱點內容，聚焦開發者，助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解：https://app.aibase.com/zh1、超越Seedance2.0！8、智譜發佈GLM-5.1:SWE-bench評分全球領跑，模型單價上調10%智譜發佈全新大模型GLM-5.1，在SWE-benchPro基準測試中表現優異，同時在價格上實現與國際頂尖廠商的對齊，標誌着行業競爭重心轉向性能溢價。

33.5k 8 小時前

AI日報：AI視頻神祕黑馬Happy Horse亮相；愛詩科技 PixVerse C1 發佈；360 打造“蝦書”APP

GLM-5.1 發佈：一個能獨立工作的智能模型，持續作業長達 8 小時

GLM-5.1開源模型在智能水平上實現突破，能獨立處理長達8小時的複雜工程項目。相比以往模型，其在代碼能力和長程任務執行方面顯著提升。該模型在全球開源模型中表現優異，於多個代碼評測基準取得佳績，尤其在SWE-Bench Pro測試中成功定位並修復高難度工程Bug，超越現有頂級模型。

GLM-5.1 發佈：一個能獨立工作的智能模型，持續作業長達 8 小時

AI產品

SWE-bench Verified

SWE-bench Verified

AI模型軟件工程能力評估工具

模型

Claude Sonnet 4.5

Anthropic

Claude Sonnet 4.5

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

GPT-5

Openai

GPT-5

$8.75

輸入tokens/百萬

$70

輸出tokens/百萬

400

上下文長度

Claude Opus 4.1

Anthropic

Claude Opus 4.1

$105

輸入tokens/百萬

$525

輸出tokens/百萬

200

上下文長度

GLM-4.5

Chatglm

GLM-4.5

$2

輸入tokens/百萬

$8

輸出tokens/百萬

128

上下文長度

Grok-4 Heavy

Xai

Grok-4 Heavy

-

輸入tokens/百萬

-

輸出tokens/百萬

-

上下文長度

Claude Sonnet 4

Anthropic

Claude Sonnet 4

$21

輸入tokens/百萬

$105

輸出tokens/百萬

200

上下文長度

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

© 2026AIBase

商務合作網站地圖