MiniMaxがオープンソースのベンチマーク「OctoCodingBench」を発表。コードリポジトリ環境におけるプログラミングエージェントの指示遵守能力を評価し、既存のタスク完了偏重評価(SWE-bench等)を補完。エージェント評価・最適化の新たな方向性を示す。....