FlashAttention एक ओपन-सोर्स ध्यान तंत्र लाइब्रेरी है, जो गहन शिक्षा में ट्रांसफॉर्मर मॉडल के लिए डिज़ाइन की गई है, जिससे गणना दक्षता और मेमोरी उपयोग दक्षता में सुधार होता है। यह I/O-अवेयर विधि से ध्यान गणना को अनुकूलित करता है, मेमोरी उपयोग को कम करता है, और साथ ही सटीक गणना परिणामों को बनाए रखता है। FlashAttention-2 आगे समानांतरता और कार्य आवंटन में सुधार करता है, जबकि FlashAttention-3 Hopper GPU के लिए अनुकूलित है और FP16 और BF16 डेटा प्रकारों का समर्थन करता है।