最近、中国科学院、北京大学、香港科技大學などの多くの著名な学術機関が共同で開発した GitTaskBench が正式にリリースされ、コードスマートエージェントの実際の導入基準の新しい時代の始まりを示しています。
現在の評価システムは一般的にコード生成と閉じた問題に焦点を当てており、開発者が実際に業務で直面する多くの課題、例えば環境設定や依存関係の管理、複数リポジトリ間のリソース統合などを十分に反映していません。そのため、GitTaskBench はコード生成だけでなく、開発プロセス全体を評価対象としており、初めてリポジトリの理解、環境設定、インクリメンタル開発からプロジェクトレベルでの納品に至るまでの全フロー評価を実現しました。
この評価ツールのコアは、「フレームワーク × モデル」の経済的収益評価です。これは学術界および業界に深い洞察を提供するとともに、起業家に方向性を示します。オープンソース版には7つのモード、7つの分野、24のサブフィールド、および54のリアルなタスクが含まれており、テストのベースとなる実際の GitHub リポジトリも用意されています。各タスクには詳細な自然言語指示書と入出力フォーマットが添えられ、タスク固有の自動評価メカニズムが備わっており、評価の効率性と正確性を確保しています。
GitTaskBench の評価フレームワークでは、全体的なコーディング能力、タスク指向の実行、自主的な環境設定の3つの次元が体系的に分析されます。この新たな評価システムは、コードスマートエージェントの評価基準を向上させ、その後の研究にとって貴重な参考になります。
最も注目すべき点は、GitTaskBench が「コストパフォーマンス(コスト対効果)」という概念を導入し、タスク完了の経済的効果を定量化したことです。タスク完了率、市場価値、品質係数を組み合わせることで、研究者はコードスマートエージェントが異なる分野における実際の価値をより正確に評価できます。この革新は、今後のコードスマートエージェントの応用の道を開き、コスト削減と効率向上の大きな潜在力を示しています。
GitTaskBench のリリースは、コードスマートエージェントの評価と応用において新たな局面を開くことになり、実際の業務でより大きな効果を発揮するようになります。
論文のURL:https://arxiv.org/pdf/2508.18993