SwiftInfer é uma biblioteca de aceleração de inferência de modelos de linguagem em larga escala (LLM) baseada na estrutura Nvidia TensorRT. Através da aceleração de GPU, melhora significativamente o desempenho de inferência de LLM em ambientes de produção. Este projeto implementou o mecanismo Attention Sink proposto para modelos de linguagem em streaming, suportando a geração de texto de comprimento ilimitado. O código é conciso, fácil de executar e suporta os principais modelos de linguagem em larga escala.