PromptBench es un paquete Python basado en PyTorch para evaluar modelos de lenguaje a gran escala (LLM). Ofrece una API fácil de usar para investigadores que deseen evaluar LLM. Sus principales funciones incluyen: evaluación rápida del rendimiento del modelo, ingeniería de prompts, evaluación de prompts adversariales y evaluación dinámica. Sus ventajas son su facilidad de uso y su rápida puesta en marcha, permitiendo evaluar conjuntos de datos y modelos existentes, así como personalizar fácilmente los propios conjuntos de datos y modelos. Se posiciona como una biblioteca de código abierto unificada para la evaluación de LLM.