A equipe de pesquisa do artigo "Decodificador" desenvolveu um benchmark chamado AgentBench para avaliar a capacidade de modelos de linguagem grandes em tarefas de assistência. Ao testar 25 modelos de linguagem, eles descobriram que o GPT-4 apresentou o melhor desempenho geral e em várias áreas específicas.
A equipe também disponibilizou um kit de ferramentas, um conjunto de dados e um ambiente de benchmark para a comunidade de pesquisa utilizar. Os resultados deste estudo são muito valiosos para avaliar ainda mais o desempenho de outros modelos comerciais e de código aberto.