DeepEvalの概要

DeepEvalは、言語モデルアプリケーションの評価と単体テストを行うためのフレームワークです。関連性、一貫性、公平性、無毒性など、言語モデルアプリケーションが生成する応答の性能を様々な指標でテストできます。

DeepEvalのオフライン評価方法はシンプルで使いやすく、既存のパイプラインに簡単に統合できます。複数の組み込み評価指標を提供しており、カスタム評価指標にも対応しています。DeepEvalのWeb UIを使用することで、エンジニアは評価結果を容易に確認・分析できます。