MiniMax 發佈 M2.5 模型,這是其 M2 系列在 108 天內的第三次升級。模型開源權重同步上線魔搭 ModelScope,在編程、搜索、辦公等多場景表現領先,實現了能力、效率與成本的三重突破。該版本提供從零代碼使用到私有化部署的全流程方案,並附有工具調用與推理參數調優的實戰指南,旨在推動低成本 Agent 時代的到來。M2.5 在多項評測中成績突出,例如在 SWE-Bench Verified 中表現亮眼。
OpenAI CEO Sam Altman宣佈推出編程大模型GPT-5.3-Codex,該模型在技術指標和應用層面實現突破,推動AI輔助編程進入新階段。在SWE-Bench Pro評測中達到57%,在TerminalBench2.0和OSWorld評測中表現優異。
智譜AI開源模型GLM-4.7-Flash發佈兩週,在Hugging Face下載量突破100萬。這款30B-A3B混合思考模型性能強勁,在SWE-bench Verified和τ²-Bench等測試中,綜合表現超越gpt-oss-20b及Qwen3-30B-A3B-Thinking-2507,在同尺寸模型中領先。
Allen AI推出開源編程智能體SERA系列,旨在降低AI編程應用門檻,最低訓練成本僅400美元。其最強模型SERA-32B在SWE-Bench測試中解決54.2%問題,性能超越同類開源模型,部分指標接近行業領先水平。
AI模型軟件工程能力評估工具
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Openai
$8.75
$70
400
$525
Chatglm
$2
$8
128
Xai
-
Kwaipilot
KAT-Dev-72B-Exp是一款用於軟件工程任務的720億參數開源大語言模型,在SWE-Bench Verified基準測試中達到74.6%的準確率,是KAT-Coder模型的實驗性強化學習版本。
SWE-bench
SWE-agent-LM-7B是一個專門為軟件工程領域設計的開源語言模型,基於Qwen2.5-Coder-7B-Instruct微調訓練而成。該模型能夠有效解決軟件工程相關問題,為開發者提供智能支持,具有重要的實用價值。
unsloth
Devstral 1.1是由Mistral AI和All Hands AI合作開發的智能大語言模型,專為軟件工程任務設計。該模型在SWE-bench基準測試中表現出色,位列開源模型榜首,擁有240億參數和128k tokens的長上下文窗口。
Devstral是一款專為軟件工程任務打造的大語言模型,由Mistral AI和All Hands AI合作開發。在SWE-bench基準測試中表現優異,是排名第一的開源模型。
moonshotai
Kimi-Dev-72B 是一款用於軟件工程任務的開源編碼大語言模型,在 SWE-bench Verified 上取得了開源模型中的最優成績。
lmstudio-community
Devstral是一個專注於代碼庫探索和軟件工程代理任務的240億參數語言模型,在SWE-bench上表現優異。
mlx-community
這是一個基於SWE-bench/SWE-agent-LM-32B模型轉換而來的4位量化版本,專為軟件工程任務優化的語言模型。
基於SWE-smith工具包訓練的軟件工程專用語言模型,採用Qwen 2.5 Coder Instruct微調而成
all-hands
基於Qwen2.5-Coder-32B-Instruct微調的評審模型,用於評估代碼解決方案質量,助力SWE-Bench基準測試取得SOTA成績