AI समाचार

वैश्विक AI नवाचार का कोई भी क्षण न चूकें

AI दैनिक

दैनिक तीन मिनट का AI उद्योग रुझान

AI समयरेखा

AI उद्योग मील के पत्थर

अल हार्डवेयर

सभी ऐ हार्डवेयर उत्पादों की सूची देता है.

AI मुद्रीकरण गाइड

नवीनतम मामले

AI मुद्रीकरण मामला साझा करना

छवि संग्रह

AI छवि निर्माण मुद्रीकरण मामले

वीडियो संग्रह

AI वीडियो निर्माण मुद्रीकरण मामले

ऑडियो संग्रह

AI ऑडियो निर्माण मुद्रीकरण मामले

सामग्री संग्रह

AI सामग्री लेखन मुद्रीकरण मामले

AI ट्यूटोरियल

नवीनतम ट्यूटोरियल

नवीनतम AI ट्यूटोरियल का मुफ्त साझाकरण

AI उत्पाद रैंकिंग

AI वेबसाइटों की कुल विज़िट रैंकिंग दिखाता है

AI ट्रैफ़िक वृद्धि रैंकिंग

ट्रैफ़िक द्वारा सबसे तेज़ी से बढ़ती AI वेबसाइटों को ट्रैक करें

AI ट्रैफ़िक गिरावट रैंकिंग

महत्वपूर्ण ट्रैफ़िक गिरावट वाली AI वेबसाइटों पर ध्यान दें

AI साप्ताहिक रैंकिंग

AI वेबसाइटों की साप्ताहिक विज़िट रैंकिंग दिखाता है

AI ओपन सोर्स प्रोजेक्ट लाइब्रेरी

अवलोकन

GitHub लोकप्रिय AI ओपन सोर्स प्रोजेक्ट का अवलोकन

उत्पाद लाइब्रेरी टूल नेविगेशन MCP

Stability AI ओपन सोर्स स्टेबल ऑडियो ओपन स्मॉल मोबाइल फोन एक ऑडियो रचना के साधन में परिवर्तित हो जाता है

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jul 3, 2025

स्टेबल एआई ने चिप दिग्गज आर्म के साथ मिलकर स्टेबल ऑडियो ओपन स्मॉल को खुला स्रोत घोषित किया, जो 341 मिलियन पैरामीटर वाला एक टेक्स्ट-टू-ऑडियो जनरेशन मॉडल है जिसका विशेष रूप से मोबाइल डिवाइस के लिए अनुकूलन किया गया है। इस हल्का मॉडल आर्म CPU पर स्थानीय रूप से चल सकता है और उच्च गुणवत्ता वाला स्टीरियो ऑडियो उत्पन्न कर सकता है, जो AI ऑडियो जनरेशन तकनीक के किनारे कम्प्यूटिंग और मोबाइल डिवाइस पर महत्वपूर्ण प्रगति को चिह्नित करता है।

तकनीकी विशेषताएं: हल्का और कुशल, मोबाइल डिवाइस पर स्थानीय रूप से उत्पन्न करें

स्टेबल ऑडियो ओपन स्मॉल पहले स्टेबल ऑडियो ओपन मॉडल के आधार पर है, जिसे गहराई से अनुकूलित किया गया है, जिसके कारण पैरामीटर की संख्या 1.1 बिलियन से कम करके 341 मिलियन कर दी गई है, जो गणना की आवश्यकता को बहुत कम कर देता है। आर्म के क्लेडीएआई प per के समर्थन के कारण, मॉडल फोन पर 8 सेकंड से कम समय में 11 सेकंड तक का 44.1 केएचज़ स्टीरियो ऑडियो उत्पन्न कर सकता है, बिना क्लाउड प्रसंस्करण के, जो ऑफलाइन परिस्थितियों के लिए उपयुक्त है।

इस मॉडल में लैटेंट डिफ्यूजन मॉडल (Latent Diffusion Model) का उपयोग किया गया है, जो T5 पाठ एम्बेडिंग और ट्रांसफॉर्मर-आधारित डिफ्यूजन आर्किटेक्चर (DiT) के साथ संयोजित है, जिससे सरल अंग्रेजी पाठ प्रेरणा (जैसे "128BPM इलेक्ट्रॉनिक ड्रम लूप" या "समुद्र तट पर लहरों की आवाज") के साथ ध्वनि प्रभाव, ड्रम बीट, संगीत टुकड़ा या वातावरणीय आवाज उत्पन्न करना संभव हो जाता है। AIbase परीक्षण दिखाता है कि मॉडल छोटे ऑडियो टुकड़ों के उत्पादन में विवरण भरपूर है, जो ध्वनि डिज़ाइन और संगीत निर्माण के लिए विशेष रूप से उपयुक्त है।

ओपन सोर्स और लाइसेंस: विकासकर्ताओं और रचनात्मक लोगों को शक्ति प्रदान करें

स्टेबल ऑडियो ओपन स्मॉल स्टेबल एआई समुदाय लाइसेंस के अधीन है, जो अनुसंधानकर्ताओं, व्यक्तिगत उपयोगकर्ताओं और वार्षिक आय कम से कम 1 मिलियन डॉलर वाले कंपनियों के लिए मुफ्त है, मॉडल वेट और कोड हगिंग फेस और गिटहब पर जारी कर दिए गए हैं। बड़ी कंपनियों को एंटरप्राइज लाइसेंस खरीदना आवश्यक है, जिससे व्यावसायिक उपयोग में तकनीक की स्थायित्व सुनिश्चित हो जाता है। इस वर्गीकृत लाइसेंस नीति के कारण तकनीकी प्रवेश बाधाओं में कमी आई है, जो वैश्विक विकासकर्ताओं को ध्वनि जनरेशन एप्लिकेशन की खोज करने के लिए प्रोत्साहित करती है।

इसके अलावा, मॉडल के शिक्षण डेटा पूरी तरह से फ्रीसाउंड और फ्री म्यूजिक आर्काइव के अनुप्लब्ध ध्वनि से लिया गया है, जो कॉपीराइट सुरक्षा को सुनिश्चित करता है, जो सुनो और यूडियो जैसे प्रतिद्वंद्वियों के समान अधिकृत सामग्री के उपयोग के कारण उत्पन्न होने वाले जोखिम को बचाता है।

कार्यक्षमता और नवाचार: ARC के बाद ट्रेनिंग दक्षता में सुधार

स्टेबल ऑडियो ओपन स्मॉल में अंतर्निहित आपसी तुलना (ARC) के बाद ट्रेनिंग विधि शामिल है, जिसके बिना पारंपरिक डिस्टिलेशन या क्लासिफायर निर्देश की आवश्यकता नहीं होती है, जो आपसी विरोधाभास नुकसान और तुलनात्मक विश्लेषक नुकसान के साथ संयोजित होता है, जो उत्पादन गति और प्रेरणा के अनुसार अच्छा प्रदर्शन देता है। अध्ययन दिखाता है कि मॉडल H100 GPU पर 12 सेकंड का ऑडियो केवल 75 मिलीसेकंड में उत्पन्न करता है, मोबाइल उपकरण पर लगभग 7 सेकंड में, और इसके CLAP शर्त विविधता अंक पर 0.41 अंक है, जो इस प्रकार के मॉडल में शीर्ष पर है।

व्यक्तिगत परीक्षण में, मॉडल के विविधता (4.4), गुणवत्ता (4.2) और प्रेरणा के अनुसार (4.2) पर उच्च अंक प्राप्त हुए, जो ध्वनि प्रभाव और गति टुकड़ों के उत्पादन में इसके उत्कृष्ट प्रदर्शन को दर्शाता है। इसके पिंग-पॉंग सैंपलिंग तकनीक ने कम चरण अनुमान को आगे बढ़ाया, जो गति और गुणवत्ता के बीच संतुलन बनाए रखता है।

उद्योग के अर्थ: मोबाइल AI के लिए नवाचार और रचनात्मकता के लिए लोकतंत्रीकरण

स्टेबल ऑडियो ओपन स्मॉल के जारी करने से AI ऑडियो जनरेशन तकनीक के मोबाइल डिवाइस और किनारे कम्प्यूटिंग की ओर एक परिवर्तन की घोषणा की गई है। विपणनकर्ताओं के विपरीत, जो क्लाउड प्रसंस्करण पर निर्भर हैं, इस मॉडल की ऑफलाइन चलने की क्षमता मोबाइल अनुप्रयोगों (जैसे वास्तविक समय ऑडियो उत्पादन) के लिए सुविधा प्रदान करती है, जो विश्व के 99% स्मार्टफोन उपयोगकर्ताओं को कवर करती है। AIbase विश्लेषण के अनुसार, ऐसी तकनीक के विस्तार से ऑडियो रचना पारिस्थितिकी व्यवस्था को बदल देगा, जिससे सामान्य उपयोगकर्ता भी विशेषज्ञ स्तर के ध्वनि डिज़ाइन में भाग ले सकते हैं।

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT