MiniMax推出開源基準測試OctoCodingBench,旨在評估編程智能體在代碼倉庫環境中遵循指令的能力。該測試彌補了現有基準(如SWE-bench)主要關注任務完成能力的不足,爲智能體評估和優化提供了新方向。
九坤投資推出AI大模型IQuest-Coder-V1系列,具備強大代碼生成與理解能力。該系列提供7B、14B和40B三種參數版本,其中40B版本在SWE-Bench Verified榜單上表現突出,以81.4%的成績超越Claude Opus-4.5和GPT-5.2等知名模型,引發科技界關注。
2025年AI編程領域迎來爆發式增長,從代碼補全進化到多代理協作系統,AI已成爲能獨立處理複雜任務的“智能夥伴”。斯坦福大學報告顯示,AI在軟件工程基準測試SWE-bench上的得分一年內大幅提升67.3個百分點,達到71.7%,標誌着AI編程能力實現重大突破。
Windsurf發佈Wave13版本,聚焦模型能力、多智能體協同和終端體驗升級。新版默認搭載SWE-1.5模型,具備SWE-Bench-Pro級別性能,可處理複雜代碼任務。
AI模型軟件工程能力評估工具
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Openai
$8.75
$70
400
$525
Chatglm
$2
$8
128
Xai
-
Kwaipilot
KAT-Dev-72B-Exp是一款用於軟件工程任務的720億參數開源大語言模型,在SWE-Bench Verified基準測試中達到74.6%的準確率,是KAT-Coder模型的實驗性強化學習版本。
SWE-bench
SWE-agent-LM-7B是一個專門為軟件工程領域設計的開源語言模型,基於Qwen2.5-Coder-7B-Instruct微調訓練而成。該模型能夠有效解決軟件工程相關問題,為開發者提供智能支持,具有重要的實用價值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
Devstral是一款專為軟件工程任務打造的大語言模型,由Mistral AI和All Hands AI合作開發。在SWE-bench基準測試中表現優異,是排名第一的開源模型。
moonshotai
Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型,在 SWE-bench Verified 上取得了開源模型中的最優成績。
lmstudio-community
Devstral是一個專注於代碼庫探索和軟件工程代理任務的240億參數語言模型,在SWE-bench上表現優異。
mlx-community
這是一個基於SWE-bench/SWE-agent-LM-32B模型轉換而來的4位量化版本,專為軟件工程任務優化的語言模型。
基於SWE-smith工具包訓練的軟件工程專用語言模型,採用Qwen 2.5 Coder Instruct微調而成
all-hands
基於Qwen2.5-Coder-32B-Instruct微調的評審模型,用於評估代碼解決方案質量,助力SWE-Bench基準測試取得SOTA成績