YaRN एक गणनात्मक रूप से कुशल विधि है, जो ट्रांसफार्मर-आधारित बड़े भाषा मॉडल के संदर्भ विंडो की लंबाई को बढ़ा सकती है। यह घूर्णन स्थिति एम्बेडिंग (RoPE) का उपयोग करके मॉडल की क्रमिक डेटा को संभालने और स्थिति जानकारी को कैप्चर करने की क्षमता को बढ़ाता है, और संदर्भ विंडो को विस्तारित करने के लिए ट्रांसफार्मर को संकुचित करता है। प्रयोगों से पता चला है कि YaRN को भाषा मॉडल के संदर्भ विंडो के विस्तार को सफलतापूर्वक प्राप्त करने के लिए कम प्रशिक्षण नमूनों और चरणों की आवश्यकता होती है, और इसकी गणनात्मक दक्षता उच्च है। यह विधि बड़े भाषा मॉडल के संदर्भ विंडो के विस्तार के लिए एक कुशल समाधान प्रदान करती है।
YaRN: बड़े मॉडल के संदर्भ विंडो की लंबाई को प्रभावी ढंग से बढ़ाना

站长之家
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।