DeepEval es un framework para la evaluación y pruebas unitarias de aplicaciones de modelos lingüísticos. Ofrece una variedad de métricas para evaluar el rendimiento de las respuestas generadas por las aplicaciones de modelos lingüísticos en aspectos como la relevancia, la coherencia, la imparcialidad y la ausencia de toxicidad.
El método de evaluación offline de DeepEval es sencillo y fácil de usar, pudiéndose integrar rápidamente en las canalizaciones existentes. Ofrece varias métricas de evaluación integradas y admite métricas de evaluación personalizadas. A través de la interfaz web de DeepEval, los ingenieros pueden ver y analizar fácilmente sus resultados de evaluación.