स्टेबल एआई ने चिप दिग्गज आर्म के साथ मिलकर स्टेबल ऑडियो ओपन स्मॉल को खुला स्रोत घोषित किया, जो 341 मिलियन पैरामीटर वाला एक टेक्स्ट-टू-ऑडियो जनरेशन मॉडल है जिसका विशेष रूप से मोबाइल डिवाइस के लिए अनुकूलन किया गया है। इस हल्का मॉडल आर्म CPU पर स्थानीय रूप से चल सकता है और उच्च गुणवत्ता वाला स्टीरियो ऑडियो उत्पन्न कर सकता है, जो AI ऑडियो जनरेशन तकनीक के किनारे कम्प्यूटिंग और मोबाइल डिवाइस पर महत्वपूर्ण प्रगति को चिह्नित करता है।

तकनीकी विशेषताएं: हल्का और कुशल, मोबाइल डिवाइस पर स्थानीय रूप से उत्पन्न करें

स्टेबल ऑडियो ओपन स्मॉल पहले स्टेबल ऑडियो ओपन मॉडल के आधार पर है, जिसे गहराई से अनुकूलित किया गया है, जिसके कारण पैरामीटर की संख्या 1.1 बिलियन से कम करके 341 मिलियन कर दी गई है, जो गणना की आवश्यकता को बहुत कम कर देता है। आर्म के क्लेडीएआई प per के समर्थन के कारण, मॉडल फोन पर 8 सेकंड से कम समय में 11 सेकंड तक का 44.1 केएचज़ स्टीरियो ऑडियो उत्पन्न कर सकता है, बिना क्लाउड प्रसंस्करण के, जो ऑफलाइन परिस्थितियों के लिए उपयुक्त है।

इस मॉडल में लैटेंट डिफ्यूजन मॉडल (Latent Diffusion Model) का उपयोग किया गया है, जो T5 पाठ एम्बेडिंग और ट्रांसफॉर्मर-आधारित डिफ्यूजन आर्किटेक्चर (DiT) के साथ संयोजित है, जिससे सरल अंग्रेजी पाठ प्रेरणा (जैसे "128BPM इलेक्ट्रॉनिक ड्रम लूप" या "समुद्र तट पर लहरों की आवाज") के साथ ध्वनि प्रभाव, ड्रम बीट, संगीत टुकड़ा या वातावरणीय आवाज उत्पन्न करना संभव हो जाता है। AIbase परीक्षण दिखाता है कि मॉडल छोटे ऑडियो टुकड़ों के उत्पादन में विवरण भरपूर है, जो ध्वनि डिज़ाइन और संगीत निर्माण के लिए विशेष रूप से उपयुक्त है।

image.png

ओपन सोर्स और लाइसेंस: विकासकर्ताओं और रचनात्मक लोगों को शक्ति प्रदान करें

स्टेबल ऑडियो ओपन स्मॉल स्टेबल एआई समुदाय लाइसेंस के अधीन है, जो अनुसंधानकर्ताओं, व्यक्तिगत उपयोगकर्ताओं और वार्षिक आय कम से कम 1 मिलियन डॉलर वाले कंपनियों के लिए मुफ्त है, मॉडल वेट और कोड हगिंग फेस और गिटहब पर जारी कर दिए गए हैं। बड़ी कंपनियों को एंटरप्राइज लाइसेंस खरीदना आवश्यक है, जिससे व्यावसायिक उपयोग में तकनीक की स्थायित्व सुनिश्चित हो जाता है। इस वर्गीकृत लाइसेंस नीति के कारण तकनीकी प्रवेश बाधाओं में कमी आई है, जो वैश्विक विकासकर्ताओं को ध्वनि जनरेशन एप्लिकेशन की खोज करने के लिए प्रोत्साहित करती है।

इसके अलावा, मॉडल के शिक्षण डेटा पूरी तरह से फ्रीसाउंड और फ्री म्यूजिक आर्काइव के अनुप्लब्ध ध्वनि से लिया गया है, जो कॉपीराइट सुरक्षा को सुनिश्चित करता है, जो सुनो और यूडियो जैसे प्रतिद्वंद्वियों के समान अधिकृत सामग्री के उपयोग के कारण उत्पन्न होने वाले जोखिम को बचाता है।

कार्यक्षमता और नवाचार: ARC के बाद ट्रेनिंग दक्षता में सुधार

स्टेबल ऑडियो ओपन स्मॉल में अंतर्निहित आपसी तुलना (ARC) के बाद ट्रेनिंग विधि शामिल है, जिसके बिना पारंपरिक डिस्टिलेशन या क्लासिफायर निर्देश की आवश्यकता नहीं होती है, जो आपसी विरोधाभास नुकसान और तुलनात्मक विश्लेषक नुकसान के साथ संयोजित होता है, जो उत्पादन गति और प्रेरणा के अनुसार अच्छा प्रदर्शन देता है। अध्ययन दिखाता है कि मॉडल H100 GPU पर 12 सेकंड का ऑडियो केवल 75 मिलीसेकंड में उत्पन्न करता है, मोबाइल उपकरण पर लगभग 7 सेकंड में, और इसके CLAP शर्त विविधता अंक पर 0.41 अंक है, जो इस प्रकार के मॉडल में शीर्ष पर है।

व्यक्तिगत परीक्षण में, मॉडल के विविधता (4.4), गुणवत्ता (4.2) और प्रेरणा के अनुसार (4.2) पर उच्च अंक प्राप्त हुए, जो ध्वनि प्रभाव और गति टुकड़ों के उत्पादन में इसके उत्कृष्ट प्रदर्शन को दर्शाता है। इसके पिंग-पॉंग सैंपलिंग तकनीक ने कम चरण अनुमान को आगे बढ़ाया, जो गति और गुणवत्ता के बीच संतुलन बनाए रखता है।

उद्योग के अर्थ: मोबाइल AI के लिए नवाचार और रचनात्मकता के लिए लोकतंत्रीकरण

स्टेबल ऑडियो ओपन स्मॉल के जारी करने से AI ऑडियो जनरेशन तकनीक के मोबाइल डिवाइस और किनारे कम्प्यूटिंग की ओर एक परिवर्तन की घोषणा की गई है। विपणनकर्ताओं के विपरीत, जो क्लाउड प्रसंस्करण पर निर्भर हैं, इस मॉडल की ऑफलाइन चलने की क्षमता मोबाइल अनुप्रयोगों (जैसे वास्तविक समय ऑडियो उत्पादन) के लिए सुविधा प्रदान करती है, जो विश्व के 99% स्मार्टफोन उपयोगकर्ताओं को कवर करती है। AIbase विश्लेषण के अनुसार, ऐसी तकनीक के विस्तार से ऑडियो रचना पारिस्थितिकी व्यवस्था को बदल देगा, जिससे सामान्य उपयोगकर्ता भी विशेषज्ञ स्तर के ध्वनि डिज़ाइन में भाग ले सकते हैं।