Kürzlich wurde GitTaskBench, ein von mehreren renommierten akademischen Institutionen wie der Chinesischen Akademie der Wissenschaften, Peking University und der Hong Kong Science and Technology University gemeinsam entwickeltes Projekt, offiziell vorgestellt. Dies markiert den Beginn einer neuen Ära im praktischen Einsatz von Code-Intelligenz-Agenten.
Die bestehenden Bewertungssysteme legen oft den Fokus auf die Codeerzeugung und geschlossene Aufgaben, wodurch sie nicht vollständig die vielen Herausforderungen widerspiegeln, mit denen Entwickler im Alltag konfrontiert werden, beispielsweise Umgebungsinstallation, Abhängigkeitsmanagement und Integration von Ressourcen aus verschiedenen Repositories. Daher betrachtet GitTaskBench nicht nur die Codeerzeugung, sondern umfasst auch den gesamten Entwicklungsprozess in der Bewertung. Erstmals wird so eine umfassende Bewertung vom Repo-Verständnis, der Umgebungsinstallation, der inkrementellen Entwicklung bis zur Projektlieferung ermöglicht.
Der Kern dieses Bewertungstools besteht in der wirtschaftlichen Effizienzbewertung von „Framework × Modell“. Es bietet nicht nur tiefgehende Einsichten für die akademische und industrielle Welt, sondern weist auch Unternehmern den Weg. Die Open-Source-Version umfasst 7 Modality, 7 Bereiche, 24 Unterkategorien sowie 54 echte Aufgaben und stellt reale GitHub-Repositories als Testbasis bereit. Jede Aufgabe ist mit detaillierten natürlichsprachlichen Anweisungen und Eingabe- und Ausgabformaten versehen und verfügt über eine automatisierte Bewertungsmechanik, die spezifisch für die Aufgabe ist, um die Effizienz und Genauigkeit der Bewertung sicherzustellen.
In dem Bewertungsfeld von GitTaskBench werden drei Dimensionen – insgesamt Codierfähigkeiten, taskorientierte Ausführung und eigenständige Umgebungsinstallation – systematisch analysiert. Dieses neue Bewertungssystem erhöht nicht nur den Bewertungsstandard für Code-Intelligenz-Agenten, sondern bietet auch wertvolle Referenzen für zukünftige Forschungen.
Am beeindruckendsten ist, dass GitTaskBench das Konzept des „Kosten-Nutzen-Verhältnisses“ eingeführt hat, um die wirtschaftliche Effizienz bei der Aufgabenbearbeitung zu quantifizieren. Durch die Kombination der Aufgabenbearbeitungsrate, des Marktwerts und des Qualitätskoeffizienten können Forscher die tatsächliche Wertigkeit von Code-Intelligenz-Agenten in verschiedenen Bereichen genauer bewerten. Diese Innovation ebnet den Weg für zukünftige Anwendungen von Code-Intelligenz-Agenten und zeigt ihr großes Potenzial bei der Kosteneinsparung und Steigerung der Effizienz.
Die Veröffentlichung von GitTaskBench wird eine völlig neue Situation für die Bewertung und Anwendung von Code-Intelligenz-Agenten schaffen, sodass sie in der Praxis noch effektiver eingesetzt werden können.
Paper-Link: https://arxiv.org/pdf/2508.18993