ExllamaV2 est une bibliothèque d'inférence pour les grands modèles de langage (LLM) conçue pour fonctionner efficacement sur les GPU grand public. Elle prend en charge le nouveau format de quantification ajustable EXL2, offrant une amélioration des performances de 1,5 à 2 fois. Ce projet vise à devenir une solution d'inférence LLM facile à utiliser, compatible avec les modèles Hugging Face, proposant des exemples interactifs pour une expérience utilisateur intuitive et accessible des puissantes capacités des LLM.
En résumé, ExllamaV2 offre une solution concrète et viable pour exécuter des grands modèles de langage sur les GPU domestiques.