गहरा सीखने के क्षेत्र में, चक्रवाती न्यूरल नेटवर्क (RNN) और Transformer मॉडल दोनों अपने-अपने लाभ हैं। हाल के अध्ययन में पाया गया है कि रैखिक चक्रवाती मॉडल (जैसे Mamba) अपने श्रृंखला प्रसंस्करण क्षमता के कारण, Transformer के स्थान को चुनौती दे रहे हैं। विशेष रूप से, बहुत लंबी श्रृंखला के कार्यों के साथ, चक्रवाती मॉडल अपने सीमा के बजाय बहुत बड़ा संभावना दिखा रहे हैं।

Transformer मॉडल लंबे संदर्भ के साथ काम करते समय, आमतौर पर निश्चित संदर्भ खिड़की के सीमा के कारण बाधा का सामना करते हैं, और गणना की जटिलता श्रृंखला की लंबाई के साथ तेजी से बढ़ती है, जिसके कारण कार्यक्षमता कम हो जाती है। जबकि रैखिक चक्रवाती मॉडल लंबी श्रृंखला के साथ अधिक लचीले ढंग से निपट सकते हैं, यह उनका एक बड़ा लाभ है। हालांकि, पहले चक्रवाती मॉडल छोटी श्रृंखला में Transformer के साथ तुलना में खराब प्रदर्शन करते रहे हैं, जिसके कारण उनका वास्तविक अनुप्रयोग में उपयोग सीमित रहा है।

image.png

हाल ही में, कार्नेगी मेलॉन विश्वविद्यालय और Cartesia AI के शोधकर्ताओं ने चक्रवाती मॉडल की लंबी श्रृंखला पर सामान्यीकरण क्षमता में सुधार के लिए एक नवीनतम दृष्टिकोण प्रस्तुत किया। उन्होंने पाया कि केवल 500 चरण के सरल शिक्षण हस्तक्षेप के साथ, चक्रवाती मॉडल 256k तक की श्रृंखला के साथ निपट सकते हैं, जो अद्भुत सामान्यीकरण क्षमता को दर्शाता है। यह अध्ययन दर्शाता है कि चक्रवाती मॉडल के पास मूल दोष नहीं है, बल्कि उनकी संभावनाएं अभी तक पूरी तरह से खोज नहीं की गई हैं।

अध्ययन टीम ने एक नए स्पष्टीकरण ढांचा प्रस्तावित किया, जिसे "अनअन्वेषित अवस्था की परिकल्पना" कहा गया है। यह परिकल्पना बताती है कि चक्रवाती मॉडल के प्रशिक्षण के दौरान उन्हें केवल सीमित अवस्था वितरण के साथ ही जानकारी मिलती है, जिसके कारण लंबी श्रृंखला के सामने उनका प्रदर्शन खराब हो जाता है। लंबाई के सामान्यीकरण के लिए, अध्ययनकर्ताओं ने कई प्रशिक्षण हस्तक्षेप विधियां प्रस्तावित की, जैसे यादृच्छिक शोर का उपयोग, शोर के अनुकूलन और अवस्था प्रसार। इन विधियों ने मॉडल को लंबी श्रृंखला के प्रशिक्षण में अच्छा सामान्यीकरण करने में सक्षम बनाया, जिसके कारण उनका प्रदर्शन बहुत बढ़ गया।

उल्लेखनीय बात यह है कि ये हस्तक्षेप विधियां मॉडल के प्रदर्शन के साथ-साथ अवस्था के स्थिरता को भी बरकरार रख सकती हैं, जिससे चक्रवाती मॉडल लंबे संदर्भ कार्यों में अच्छा प्रदर्शन कर सकते हैं। अध्ययनकर्ताओं ने एक श्रृंखला के परीक्षणों के माध्यम से यह साबित कर दिया कि इन विधियों के वास्तविक अनुप्रयोग में दक्षता है, जो चक्रवाती मॉडल के विकास के लिए नए रास्ते खोल देते हैं।