vLLM é uma biblioteca rápida, fácil de usar e eficiente para inferência e fornecimento de serviços de modelos de linguagem grandes (LLM). Por meio do uso das mais recentes tecnologias de taxa de transferência de serviço, gerenciamento de memória eficiente, solicitações de processamento em lote contínuo, execução rápida de modelos de gráfico CUDA/HIP, técnicas de quantização, núcleos CUDA otimizados, etc., ele fornece serviços de inferência de alto desempenho. O vLLM suporta integração perfeita com modelos HuggingFace populares, suporta vários algoritmos de decodificação, incluindo amostragem paralela, pesquisa de feixe, etc., suporta paralelismo de tensor, é adequado para inferência distribuída, suporta saída em fluxo e é compatível com o servidor de API OpenAI. Além disso, o vLLM também suporta GPUs NVIDIA e AMD, e suporte experimental de cache de prefixo e multi-lora.