O GitTaskBench, desenvolvido em colaboração por várias instituições acadêmicas renomadas, como a Academia Chinesa de Ciências, a Universidade de Pequim e a Universidade de Ciência e Tecnologia de Hong Kong, foi oficialmente lançado, marcando o início da nova era dos padrões de entrega prática de agentes de código inteligente.
Os sistemas atuais de avaliação costumam se concentrar na geração de código e em questões fechadas, não sendo capazes de refletir plenamente os diversos desafios que os desenvolvedores enfrentam no trabalho real, como configuração de ambiente, gerenciamento de dependências e integração de recursos entre repositórios. Por isso, o GitTaskBench não se limita apenas à geração de código, mas também inclui todo o processo de desenvolvimento na avaliação, realizando pela primeira vez uma avaliação abrangente desde a compreensão do repositório, configuração do ambiente, desenvolvimento incrementais até a entrega de projeto.
O núcleo dessa ferramenta de avaliação está na avaliação de retorno econômico "quadro × modelo", que não só fornece insights profundos para a academia e a indústria, mas também orienta empreendedores. Sua versão de código aberto abrange 7 modos, 7 áreas, 24 subáreas e 54 tarefas reais, fornecendo repositórios GitHub reais como base de teste. Cada tarefa vem com instruções detalhadas em linguagem natural e formatos de entrada e saída, além de mecanismos automatizados de avaliação específicos para cada tarefa, garantindo eficiência e precisão na avaliação.
No quadro de avaliação do GitTaskBench, três dimensões - capacidade geral de codificação, execução orientada a tarefas e configuração autônoma de ambiente - são analisadas de forma sistemática. Essa nova plataforma de avaliação não apenas elevou os padrões de avaliação dos agentes de código inteligente, mas também forneceu uma referência valiosa para pesquisas futuras.
O mais empolgante é que o GitTaskBench introduziu o conceito de "relação custo-benefício", quantificando o valor econômico da conclusão da tarefa. Combinando a taxa de conclusão da tarefa, o valor do mercado e o coeficiente de qualidade, os pesquisadores podem avaliar com mais precisão o valor real dos agentes de código inteligente em diferentes áreas. Essa inovação abre caminho para aplicações futuras dos agentes de código inteligente, demonstrando seu grande potencial na redução de custos e aumento da eficiência.
A publicação do GitTaskBench abrirá novas possibilidades para a avaliação e aplicação de agentes de código inteligente, permitindo que eles tenham maior utilidade no trabalho real.
Endereço do artigo: https://arxiv.org/pdf/2508.18993