MiniMax推出開源基準測試OctoCodingBench,旨在評估編程智能體在代碼倉庫環境中遵循指令的能力。該測試彌補了現有基準(如SWE-bench)主要關注任務完成能力的不足,爲智能體評估和優化提供了新方向。