हाल ही में, पाठ से ध्वनि (TTS) प्रौद्योगिकी का उपयोग आर्टिफिशियल इंटेलिजेंस (AI) के क्षेत्र में बढ़ती हुई उपयोगकर्ता वर्गों में पसंद की जा रही है, समझदार वास्तविकता और ध्वनि पर अपने प्रभाव पर बदलाव कर रही है। Resemble AI द्वारा विकसित एक नामित ओपन सोर्स TTS मॉडल 'चैटरबॉक्स' ने खुले स्रोत के प्रणाली के साथ अपने विशेषज्ञ दक्षता और नवीन फ़ंक्शन पर ख़ास ध्यान आकर्षित किया है।

image.png

चैटरबॉक्स: ओपन सोर्स TTS का क्रांतिकारी अग्रगण्य

चैटरबॉक्स Resemble AI द्वारा MIT लाइसेंस के तहत पूरी तरह से ओपन सोर्स है, जिससे डेवलपर्स इसे मुफ्त रूप से उपयोग कर सकते हैं और फिर संशोधित कर सकते हैं। यह मॉडल 0.5B आकार के LLaMA आर्किटेक्चर पर आधारित है, जिसके पीछे 500,000 घंटों से अधिक के चयनित ऑडियो डेटा का प्रशिक्षण हुआ है, जो कुछ बंद स्रोत प्रणालियों की प्रदर्शन से भी बेहतर है।

अनुमानित है कि हाल के काल्पनिक परीक्षणों में, 63.75% श्रोताओं ने चैटरबॉक्स के ध्वनि आउटपुट को पसंद किया, जो इंडस्ट्री के संकेतक एलेवनलेब्स की तुलना में अत्यधिक सच्चाई और सुस्पष्टता दिखाए।

चैटरबॉक्स न केवल उच्च गुणवत्ता वाले ध्वनि सिंथेसिस प्रदान करता है, बल्कि शून्य-नमूना ध्वनि क्लोनिंग भी समर्थित करता है, जिससे केवल 5 सेकंड के रिफरेंस ऑडियो के साथ उच्च गुणवत्ता वाली परस्पर निर्मित ध्वनि प्राप्त की जा सकती है। इसके साथ ही, इसके विशेष फ़ंक्शन एमोशनल एक्सेस नियंत्रण फ़ंक्शन है, जिससे उपयोगकर्ता सरल पैरामीटर सेटिंग के माध्यम से भावना, गति और टोन को नियंत्रित कर सकते हैं, जिससे कंटेंट क्रिएटर्स, गेम डेवलपर्स, और AI साथी डिजाइनर्स को अपने कार्य के लिए अद्वितीय लचीलापन प्रदान किया जाता है।

टेक्नोलॉजी के बारे में: रियल-टाइम सिंथेसिस और सुरक्षा के लिए नॉइज़

चैटरबॉक्स का एक और महत्वपूर्ण पहलू यह है कि यह रियल-टाइम ध्वनि सिंथेसिस का प्रस्ताव करता है, जिसकी देरी 200 मिलीसेकंड से कम है, जो वर्तमान में इंटरएक्टिव एप्लिकेशनों के लिए लागू होती है जैसे वर्चुअल सहयोगी और रियल-टाइम डबिंग। इसकी ओपन सोर्स प्रकृति डेवलपर्स के लिए उपयोग करने के बाहरी बाधाओं को कम करती है, Hugging Face पर Gradio एप्लिकेशन उपयोगकर्ताओं को इसके फ़ंक्शन का त्वरित प्रयोग करने की सुविधा प्रदान करता है।

उपयोग के प्रभावित उपयोग को सुनिश्चित करने के लिए, प्रत्येक उत्पन्न ऑडियो चैटरबॉक्स के पर्थ न्यूरल वाटरमार्क टेक्नोलॉजी से निर्मित होती है। यह वाटरमार्क ऑडियो संपादन और कम्प्रेशन के बाद भी लगभग 100% शुद्धता के साथ शोधित होती है, जो इसके अप्रयोग को रोकने और सामग्री की ट्रेसबैक को सुनिश्चित करने में मदद करती है।

चैटरबॉक्स के आजीवन मिशन ने TTS क्षेत्र में ओपन सोर्स लहर को तेजी से बढ़ावा दिया है। अनुप्रयोगों की तुलना में बंद स्रोत प्रणालियों के जैसे ElevenLabs के साथ, चैटरबॉक्स की मुफ्त और उच्च परिमार्जित प्राप्तियों के कारण डेवलपर कम्युनिटी में तेजी से जनस्वाच्छल्य हुआ है। सोशल मीडिया पर, डेवलपर्स इसकी शुद्धता और भावनात्मक प्रदर्शन की प्रशंसा कर रहे हैं, जिसे उन्होंने 'ध्वनि सिंथेसिस का रूलब्रेकर' के रूप में बताया है।

AIbase का मानना है कि चैटरबॉक्स के ओपन सोर्स मॉडल ने प्रौद्योगिकी की प्राप्तियों की बाधाओं को कम किया है और इसके प्रतिनिधि उपयोग के लिए अधिक नवीनतापूर्ण अनुप्रयोगों को प्रेरित कर सकता है, जैसे व्यक्तिगत पॉडकास्ट, शिक्षा उपकरण और बहुभाषी सामग्री पैदा करने के लिए। हालाँकि, ओपन सोर्स के पीछे चुनौतियाँ भी हैं, जैसे व्यापक प्रसार के साथ दुष्प्रयोग को कैसे रोका जाए, यह समुदाय की एकजुटता की जरूरत है।

चैटरबॉक्स के आगमन ने TTS प्रौद्योगिकी के लिए नई संभावनाएं खोली हैं। AIbase अपने ओपन सोर्स प्रकृति के कारण अधिक डेवलपर्स को शामिल करने की उम्मीद करता है, जो एक लाभप्रद आइकोनोमी साइकल को बनाए रखेगा। इसके अलावा, Resemble AI ने उन व्यवसायियों के लिए एक भुगतान वाला TTS सेवा भी पेश की है, जिनके पास उच्च शुद्धता और स्केलिंग के लिए जरूरत है, जो ओपन स्रोत और व्यावसायिकीकरण की दो गतियां दिखाती है।

परियोजना: https://github.com/resemble-ai/chatterbox