月之暗面發佈全新開源模型 Kimi-Dev-72B,打破編程基準記錄
月之暗面(Moonshot AI)宣佈推出其新開源模型 Kimi-Dev-72B,這一模型專注於軟件工程任務,並在 AI 編程基準測試 SWE-bench Verified 中創下了全球最高的開源模型成績。Kimi-Dev-72B 以僅72億參數量的設計,成功超越了剛發佈不久的 DeepSeek-R1,後者的參數量高達671億。在 SWE-bench Verified 測試中,Kimi-Dev-72B 獲得了60.4% 的高分,成爲當前開源模型中的新標杆。該模型的優化過程包括大規模強化學習,使其能夠自動修復 Docker 環境中的真實存儲庫。Kimi-Dev-72B 在測試中僅在所有測試用例通過後才能獲得獎勵,