
ChatterBox के जारी का पृष्ठभूमि
ChatterBox, Resemble AI के बोलने की प्रौद्योगिकी में नवीनतम प्राप्ति है, जो 500,000 घंटे के उच्च गुणवत्ता वाले ध्वनि डेटा के साथ Llama आर्किटेक्चर पर आधारित है और 0.5 बिलियन पैरामीटर के साथ प्रशिक्षित होता है। पारंपरिक बंद स्रोत TTS समाधानों की तुलना में, ChatterBox एक खुला स्रोत उपकरण के रूप में जारी किया गया है, जो डेवलपर्स, निर्माताओं और व्यवसायों को उच्च गुणवत्ता और अधिक लचीले ध्वनि उत्पादन उपकरण प्रदान करता है। हाल के ऑनलाइन जानकारी बताती हैं कि जिस समय यह मई के अंत में जारी किया गया था, ChatterBox ने GitHub पर सैकड़ों स्टार प्राप्त किए, जो समुदाय के इसके प्रति उच्च स्तर के मान्यता को दर्शाता है।
इसकी विशिष्टताओं जैसे कि शून्य-सैंपल ध्वनि क्लोनिंग, अत्यधिक भावनात्मक नियंत्रण और रियल-टाइम अनुमान, व्यक्तिगत ध्वनि सहायक, खेल और फिल्म-टीवी निर्माण जैसी क्षेत्रों में बड़ी क्षमता प्रदर्शित करती हैं। ChatterBox का जारी करना न केवल ध्वनि क्लोनिंग तकनीक का उपयोग करने के लिए बाधा-मुक्त बनाता है बल्कि उद्योग के लिए एक नया मानक भी सेट करता है।
कोर फीचर्स: तकनीकी प्रगति और अनुप्रयोग क्षेत्र
शून्य-सैंपल ध्वनि क्लोनिंग
ChatterBox केवल कुछ सेकंड के रिफरेंस ध्वनि के साथ बिना अतिरिक्त प्रशिक्षण के सटीक ध्वनि क्लोनिंग का समर्थन करता है। इस "शून्य-सैंपल" क्षमता के कारण ध्वनि क्लोनिंग प्रक्रिया काफी सरल हो जाती है, जो पारस्परिक ध्वनि सहायक और वर्चुअल चरित्र डबिंग जैसी स्थितियों के लिए लागू होती है। डेवलपर्स ध्वनि प्रोम्प्ट द्वारा लक्ष्य ध्वनि शैली को समेट सकते हैं ताकि आउटपुट लागू लाइन के अनुरूप हो जाए।
नवाचारी भावना नियंत्रण
ChatterBox पहला खुला स्रोत TTS मॉडल है जो अत्यधिक भावनात्मक नियंत्रण का समर्थन करता है। इसमें एक सिंगल पैरामीटर के माध्यम से भावना के तीव्रता को नियंत्रित किया जा सकता है, जिससे साधारण से तक प्रतिभासित तक के प्रदर्शन किया जा सकता है। इस विशेषता के द्वारा इसे भावशाली अभिव्यक्ति चाहिए वाली स्थितियों, जैसे एनिमेशन, विज्ञापन और इंटरैक्टिव ऐंटरटेनमेंट में उत्कृष्ट प्रदर्शन किया जा सकता है, जो परंपरागत मॉडलों की मैकेनिकल प्रदर्शन से बहुत ऊपर है।
अत्यधिक कम देरी और उपयोग की आसानी
आधारित जनरेशन तकनीक के कारण, ChatterBox का ध्वनि संश्लेषण परिपूर्ण रूप से रियल-टाइम से तेज हो जाता है, जो वर्तमान में वर्चुअल सहायक और खेल बोल निकट-टाइम प्रणालियों के लिए उपयुक्त है। विशेष रूप से डेवलपर्स को chatterbox-tts नामक पायथन लाइब्रेरी के साथ आसानी से मॉडल को लॉकल या क्लाउड में डिप्लॉइ करने और CUDA एक्सेलरेशन का समर्थन करने की सुविधा मिलती है, जो कार्यक्षमता को बढ़ाती है।
संकुचित पानी का छिपा हुआ तकनीक
ध्वनि क्लोनिंग से संबंधित नैतिक समस्याओं का सामना करने के लिए, ChatterBox ने उत्पन्न ध्वनि में Resemble AI की PerTh न्यूरल पैनल टैगिंग तकनीक एम्बेड की है। इस पैनल टैग अस्थायी हो सकता है लेकिन पता लगाने के लिए प्रशिक्षित है, जो उत्पन्न सामग्री की पता लगाने में मदद करता है, तकनीकी स्वतंत्रता को नैतिकता से संतुलित करता है।
उद्योग का प्रभाव: खुला स्रोत ध्वनि प्रौद्योगिकी का एक महत्वपूर्ण कदम
ChatterBox का खुला स्रोत जारी करने से ध्वनि क्लोनिंग तकनीक का लोकप्रियीकरण हुआ है। हाल के परीक्षणों ने बताया कि अंधेरी परीक्षणों में 63.75% श्रोताओं ने ChatterBox के ध्वनि आउटपुट को पसंद किया, ElevenLabs के पास से भी बेहतर प्रदर्शन करता है, इसकी प्रतिस्पर्धी क्षमता को साबित करता है। इसके अलावा, ChatterBox का MIT लाइसेंस डेवलपर्स को अवरोध मुक्त अनुभव प्रदान करता है, जिससे शिक्षा, मनोरंजन और व्यापारिक क्षेत्रों में इसकी लोकप्रियता को तेज करने की उम्मीद है।
हालाँकि, ध्वनि क्लोनिंग तकनीक की खुली हुई प्रकृति के कारण नैतिक संवादों की भी बहुत बातें हो रही हैं। ऑनलाइन प्रवृत्तियों ने बताया कि AI ध्वनि क्लोनिंग का अनियमित उपयोग धोखेबाजी और अनधिकृत सामग्री बनाने के लिए किया गया है, जो तकनीक के गलत उपयोग के जोखिम को दर्शाता है। Resemble AI ने नैतिक विनियमन के माध्यम से खुले नवाचार और जिम्मेदार उपयोग के बीच संतुलन खोजने की कोशिश की है। AIbase का मानना है कि यह प्रयास, उद्योग में जिम्मेदार खुला स्रोत के उदाहरण का निर्माण करता है।
परियोजना:
https://github.com/resemble-ai/chatterbox