ExllamaV2 es una biblioteca de inferencia diseñada para ejecutar eficientemente modelos de lenguaje a gran escala (LLM) en GPUs de consumo comunes. Admite el nuevo formato de cuantificación ajustable EXL2, logrando una mejora de rendimiento de entre 1,5 y 2 veces. El objetivo del proyecto es ser una solución de inferencia LLM fácil de usar, compatible con los modelos de Hugging Face, ofreciendo ejemplos interactivos para una experiencia fluida y accesible del poder de los LLM. En resumen, ExllamaV2 proporciona una vía práctica para ejecutar modelos de lenguaje a gran escala utilizando los recursos de una GPU doméstica.