ExllamaV2 é uma biblioteca de inferência que permite a execução eficiente de modelos de linguagem de grande escala (LLMs) em GPUs de consumo comuns. Ela suporta o novo formato de quantização ajustável EXL2, alcançando uma melhoria de desempenho de 1,5 a 2 vezes. O objetivo do projeto é ser uma solução de inferência LLM fácil de usar, compatível com modelos Hugging Face, oferecendo exemplos interativos para uma experiência sem barreiras com o poder dos LLMs. Em resumo, o ExllamaV2 oferece uma maneira prática e viável de executar modelos de linguagem de grande escala utilizando recursos de GPU doméstica.
ExllamaV2: Uma biblioteca de inferência para executar LLMs localmente em GPUs de consumo modernas

站长之家
Este artigo é do AIbase Daily
Bem-vindo à coluna [AI Daily]! Este é o seu guia para explorar o mundo da inteligência artificial todos os dias. Todos os dias apresentamos os destaques da área de IA, com foco nos desenvolvedores, para o ajudar a obter insights sobre as tendências tecnológicas e a compreender as aplicações inovadoras de produtos de IA.