vLLMは、大規模言語モデル(LLM)の推論とサービス提供のための、高速で使いやすく、効率的なライブラリです。最新のサービススループット技術、効率的なメモリ管理、連続バッチ処理リクエスト、CUDA/HIPグラフによる高速モデル実行、量子化技術、最適化されたCUDAカーネルなどを用いることで、高性能な推論サービスを提供します。vLLMは、人気のHugging Faceモデルとのシームレスな統合をサポートし、並列サンプリング、ビームサーチなど、様々なデコードアルゴリズムに対応しています。テンソル並列性をサポートし、分散推論に適しており、ストリーミング出力に対応し、OpenAI APIサーバーとの互換性があります。さらに、NVIDIAとAMDのGPU、実験的なプレフィックスキャッシュとマルチLoRAのサポートにも対応しています。