Prometheus-Eval é um conjunto de ferramentas de código aberto para avaliar o desempenho de grandes modelos de linguagem (LLM) em tarefas de geração. Ele fornece uma interface simples que usa o modelo Prometheus para avaliar pares de instruções e respostas. O modelo Prometheus 2 suporta avaliação direta (pontuação absoluta) e classificação em pares (pontuação relativa), podendo simular julgamentos humanos e avaliações proprietárias baseadas em modelos de linguagem, solucionando problemas de equidade, controlabilidade e custo.