Prometheus-Evalは、大規模言語モデル(LLM)の生成タスクにおける性能を評価するためのオープンソースツールキットです。簡潔なインターフェースを提供し、Prometheusモデルを使用して指示と応答ペアを評価します。Prometheus 2モデルは直接評価(絶対評価)とペアワイズランキング(相対評価)をサポートしており、人間の判断や独自の言語モデルベースの評価を模倣することで、公平性、制御性、経済性の問題を解決します。