SwiftInfer ist eine auf dem Nvidia TensorRT-Framework basierende Beschleunigungsbibliothek für das Inferencing großer Sprachmodelle (LLM). Durch GPU-Beschleunigung wird die Inferenzleistung von LLMs in Produktionsumgebungen erheblich gesteigert. Das Projekt implementiert den für streamende Sprachmodelle entwickelten Attention Sink-Mechanismus und unterstützt die Generierung von Texten unbegrenzter Länge. Der Code ist übersichtlich, die Anwendung einfach und die Bibliothek unterstützt gängige große Sprachmodelle.