ExllamaV2 es una biblioteca de inferencia diseñada para ejecutar eficientemente modelos de lenguaje a gran escala (LLM) en GPUs de consumo comunes. Admite el nuevo formato de cuantificación ajustable EXL2, logrando una mejora de rendimiento de entre 1,5 y 2 veces. El objetivo del proyecto es ser una solución de inferencia LLM fácil de usar, compatible con los modelos de Hugging Face, ofreciendo ejemplos interactivos para una experiencia fluida y accesible del poder de los LLM. En resumen, ExllamaV2 proporciona una vía práctica para ejecutar modelos de lenguaje a gran escala utilizando los recursos de una GPU doméstica.
ExllamaV2: Una biblioteca de inferencia para ejecutar LLM localmente en GPUs de consumo modernas

站长之家
Este artículo proviene de AIbase Daily
¡Bienvenido a la columna [AI Diario]! Aquí está tu guía diaria para explorar el mundo de la inteligencia artificial. Todos los días te presentamos el contenido más destacado en el campo de la IA, centrándonos en los desarrolladores para ayudarte a comprender las tendencias tecnológicas y conocer las aplicaciones innovadoras de productos de IA.