स्विफ्टइन्फर एन्विडिया टेंसरआरटी ढाँचे पर आधारित एक बड़े पैमाने पर भाषा मॉडल (LLM) अनुमान त्वरण पुस्तकालय है, जो GPU त्वरण के माध्यम से उत्पादन वातावरण में LLM के अनुमान प्रदर्शन को बहुत बढ़ाता है। यह प्रोजेक्ट स्ट्रीमिंग भाषा मॉडल के लिए प्रस्तावित अटेंशन सिंक तंत्र को लागू करता है, जो अनंत लंबाई के पाठ निर्माण का समर्थन करता है। कोड संक्षिप्त, चलाने में आसान और मुख्य बड़े पैमाने पर भाषा मॉडल का समर्थन करता है।