OpenAI發佈GPT-5.1-Codex-Max,專爲複雜軟件工程優化,支持數十萬行代碼上下文生成。新增動態壓縮機制,自動整理記憶保留關鍵狀態,減少長會話信息丟失。SWE-bench準確率升至77.9%,工程師任務達79.9%,令牌消耗降12%。不安全內容檢測評分提升至0.920。
字節跳動推出Doubao-Seed-Code編程模型,在性能、價格和遷移成本上實現突破。該模型兼容Claude API,具備高效代碼生成能力,可簡化網頁開發。通過與TRAE開發環境深度集成,能以更快速度和更高準確性解決編程問題,在SWE-Bench驗證中表現優異。
火山引擎推出豆包編程模型,專爲Agentic編程優化,刷新SWE-Bench-Verified榜單SOTA記錄。首月訂閱僅9.9元,爲開發者提供高性價比AI編程工具。
OpenAI推出GPT-5-Codex-Mini編程模型,專爲開發者設計,性價比高。該模型基於GPT-5架構,強化代碼推理與生成能力,支持新項目創建、功能擴展、測試編寫及大規模代碼重構等複雜任務。在SWE-bench基準測試中得分74.5%,超越前代GPT-5High的72%,進一步拓展智能編程應用邊界。
AI模型軟件工程能力評估工具
anthropic
$108
輸入tokens/百萬
$540
輸出tokens/百萬
200k
上下文長度
minimax
-
1M
$21.6
mistral
$2.88
$14.4
256k
$0.72
$2.16
Kwaipilot
KAT-Dev-72B-Exp是一款用於軟件工程任務的720億參數開源大語言模型,在SWE-Bench Verified基準測試中達到74.6%的準確率,是KAT-Coder模型的實驗性強化學習版本。
SWE-bench
SWE-agent-LM-7B是一個專門為軟件工程領域設計的開源語言模型,基於Qwen2.5-Coder-7B-Instruct微調訓練而成。該模型能夠有效解決軟件工程相關問題,為開發者提供智能支持,具有重要的實用價值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
Devstral是一款專為軟件工程任務打造的大語言模型,由Mistral AI和All Hands AI合作開發。在SWE-bench基準測試中表現優異,是排名第一的開源模型。
moonshotai
Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型,在 SWE-bench Verified 上取得了開源模型中的最優成績。
lmstudio-community
Devstral是一個專注於代碼庫探索和軟件工程代理任務的240億參數語言模型,在SWE-bench上表現優異。
mlx-community
這是一個基於SWE-bench/SWE-agent-LM-32B模型轉換而來的4位量化版本,專為軟件工程任務優化的語言模型。
基於SWE-smith工具包訓練的軟件工程專用語言模型,採用Qwen 2.5 Coder Instruct微調而成
all-hands
基於Qwen2.5-Coder-32B-Instruct微調的評審模型,用於評估代碼解決方案質量,助力SWE-Bench基準測試取得SOTA成績