MiniMax推出开源基准测试OctoCodingBench,旨在评估编程智能体在代码仓库环境中遵循指令的能力。该测试弥补了现有基准(如SWE-bench)主要关注任务完成能力的不足,为智能体评估和优化提供了新方向。