Meta AI ने हाल ही में SPIRIT-LM लॉन्च किया है, जो एक क्रांतिकारी मल्टी-मोडल बुनियादी भाषा मॉडल है, जो पाठ और वाणी को स्वतंत्र रूप से मिलाने की क्षमता रखता है और मानव की तरह भावनाओं को समझने और व्यक्त करने में सक्षम है।
SPIRIT-LM एक पूर्व-प्रशिक्षित पाठ भाषा मॉडल पर आधारित है, जो पाठ और वाणी इकाइयों पर निरंतर प्रशिक्षण के माध्यम से वाणी मोड में विस्तारित होता है। यह मॉडल वाणी और पाठ अनुक्रमों को एकल टोकन सेट में जोड़ता है और एक छोटे स्वचालित प्रबंधित वाणी-टेक्स्ट समानांतर कॉर्पस का उपयोग करता है, जिसमें शब्द स्तर पर इंटरलेविंग विधि का उपयोग किया जाता है।
SPIRIT-LM के दो संस्करण हैं:
बुनियादी संस्करण (SPIRIT-LM-BASE) वाणी-संवेदनात्मक इकाइयों का उपयोग करता है।
भावनात्मक संस्करण (SPIRIT-LM-EXPRESSIVE) भावनात्मक अभिव्यक्ति का अनुकरण करने के लिए टोन और शैली इकाइयों का उपयोग करता है, इसके अलावा इसमें संवेदनात्मक इकाइयां भी शामिल हैं।
दोनों संस्करण पाठ को उपशब्द BPE टोकन के माध्यम से एन्कोड करते हैं।
SPIRIT-LM पाठ मॉडल की संवेदनात्मक क्षमता और वाणी मॉडल की अभिव्यक्ति क्षमता को जोड़ता है, इसलिए यह वाणी पहचान, पाठ से वाणी में परिवर्तन और वाणी वर्गीकरण जैसे क्रॉस-मोडल कार्यों को पूरा कर सकता है और नए कार्यों को सीखने के लिए केवल थोड़े से नमूनों की आवश्यकता होती है।
जनरेटिव मॉडल की अभिव्यक्ति क्षमता का मूल्यांकन करने के लिए, शोधकर्ताओं ने वाणी-टेक्स्ट भावनात्मक संरक्षण मानक (STSP) को पेश किया, जो जनरेटिव मॉडल की मौखिक और लिखित अभिव्यक्तियों में भावनाओं के संरक्षण के स्तर को मापता है।
भावनात्मक संस्करण SPIRIT-LM पहला ऐसा भाषा मॉडल है जो मौड में और क्रॉस-मोडल परिस्थितियों में पाठ और वाणी संकेतों की भावनाओं को संरक्षित कर सकता है। यह वाणी की भावनाओं और शैलियों को पकड़ने के लिए टोन और शैली टोकनों का उपयोग करता है और विशेष रूप से डिजाइन किए गए वाणी-टेक्स्ट भावनात्मक संरक्षण मानक के माध्यम से मूल्यांकन किया जाता है।
शोध परिणाम बताते हैं:
SPIRIT-LM वाणी मोड में शब्दावली, व्याकरण और संवेदनात्मक समझ में मौजूदा मॉडलों के बराबर है, जबकि यह अच्छी पाठ उत्पादन क्षमता बनाए रखता है।
इंटरलेविंग प्रशिक्षण SPIRIT-LM की सफलता की कुंजी है, यह मॉडल को वाणी और पाठ टोकनों के बीच के संबंधों को सीखने में सक्षम बनाता है, जिससे पाठ से वाणी में परिवर्तन में सुधार होता है।
पूर्व-प्रशिक्षण ज्ञान SPIRIT-LM की कम नमूना सीखने की क्षमता के लिए महत्वपूर्ण है।
SPIRIT-LM-EXPRESSIVE अधिक अभिव्यक्तिपूर्ण वाणी को पकड़ने और उत्पन्न करने में सक्षम है, जो भावनात्मक अभिव्यक्ति में बुनियादी संस्करण से बेहतर है।
SPIRIT-LM एआई भाषा मॉडल के विकास के इतिहास में एक महत्वपूर्ण मील का पत्थर है, यह मल्टी-मोडल भाषा समझ और उत्पादन की नई संभावनाओं का मार्ग प्रशस्त करता है, जो भविष्य के अधिक बुद्धिमान और मानव-सामान्य एआई अनुप्रयोगों के लिए आधार तैयार करता है।
पेपर का पता: https://arxiv.org/pdf/2402.05755
प्रोजेक्ट का पता: https://github.com/facebookresearch/spiritlm