vLLM est une bibliothèque rapide, facile à utiliser et efficace pour l'inférence et la fourniture de services de grands modèles linguistiques (LLM). Elle offre des services d'inférence hautes performances grâce à des techniques de débit de service de pointe, une gestion mémoire efficace, le traitement par lots continu des requêtes, l'exécution rapide du modèle via les graphes CUDA/HIP, des techniques de quantification et des noyaux CUDA optimisés. vLLM prend en charge l'intégration transparente avec les modèles Hugging Face populaires, prend en charge plusieurs algorithmes de décodage, notamment l'échantillonnage parallèle et la recherche par faisceaux, prend en charge le parallélisme tensoriel pour l'inférence distribuée, prend en charge la sortie en continu et est compatible avec les serveurs d'API OpenAI. De plus, vLLM prend en charge les GPU NVIDIA et AMD, ainsi qu'une mise en cache de préfixe expérimentale et la prise en charge multi-LoRA.