प्रसिद्ध आईएए उद्यमी ली मू अपने टीम बोसॉन.एआई के साथ हाल ही में एक नया ओपन सोर्स पाठ से बोलने (टीटीएस) महामॉडल - हिग्स ऑडियो v2 लॉन्च किया है। यह मॉडल पाठ को बोलने में बदल सकता है, और इसमें बहुभाषी बातचीत जनन, छंद के स्वचालित समायोजन और आवाज की कॉपी करने जैसी कई विशेषताएं हैं, जो ध्वनि संश्लेषण के क्षेत्र में एक महान उपलब्धि है।

हिग्स ऑडियो v2 की शक्ति इसकी बहुमाध्यमिक क्षमता में है, जो केवल पाठ सूचना के साथ ही नहीं, बल्कि ध्वनि के अर्थ को समझ और उत्पन्न कर सकता है और जटिल कार्य कर सकता है। उदाहरण के लिए, यह एक गाना लिख सकता है और विशिष्ट आवाज के साथ गाना सुना सकता है, साथ ही पृष्ठभूमि संगीत के साथ भी जोड़ सकता है, जो पहले टीटीएस तकनीक में असंभव था।

image.png

इस मॉडल को 10 मिलियन घंटे ध्वनि डेटा के साथ प्रशिक्षित किया गया है, जो विभिन्न मानक परीक्षणों में अच्छे प्रदर्शन सुनिश्चित करता है। एमर्जेंटटीटीएस-ईवैल टेस्ट के अनुसार, हिग्स ऑडियो v2 "भावना" और "सवाल" के दो श्रेणियों में GPT-4o-mini-tts के मुकाबले क्रमशः 75.7% और 55.7% अधिक जीत दर रखता है। पारंपरिक टीटीएस परीक्षण में, यह मॉडल अद्वितीय क्षमता दिखाता है और उद्योग के मानक बन जाता है।

image.png

तकनीकी रूप से, हिग्स ऑडियो v2 उन्नत डेटा प्रसंस्करण विधि का उपयोग करता है, जहां प्रति सेकंड 25 फ्रेम के ध्वनि संकेत को असतत ध्वनि वर्ड सेट में परिवर्तित कर दिया जाता है, जिससे अर्थ और ध्वनि विशेषताओं की निश्चित रूप से पहचान की जा सकती है। साथ ही, मॉडल संरचना में पूर्व-प्रशिक्षित बड़े भाषा मॉडल का उपयोग किया गया है, जो भाषा और संदर्भ के अर्थ के बारे में समझ में आता है। इसके अलावा, यह मॉडल संदर्भ शिक्षा क्षमता रखता है, जो नए कार्यों के लिए तेजी से अनुकूलन कर सकता है और शून्य-नमूना ध्वनि कॉपी कर सकता है।

image.png

अनुप्रयोगों में, हिग्स ऑडियो v2 वास्तविक समय ध्वनि चैट कर सकता है, जो कम लेटेंसी और भावनात्मक अभिव्यक्ति के साथ प्राकृतिक अंतःक्रिया प्रदान करता है, जो वर्चुअल ब्रॉडकास्टर और वास्तविक समय ध्वनि सहायक के लिए बहुत उपयुक्त है। ध्वनि सामग्री रचना के मामले में, यह प्राकृतिक बातचीत और निर्देशक के लिए उत्पन्न कर सकता है, जो ऑडियो बुक, अंतःक्रिया प्रशिक्षण और डायनामिक कहानी बताने के लिए शक्तिशाली समर्थन प्रदान करता है। अंत में, ध्वनि कॉपी क्षमता इसे विशिष्ट व्यक्ति की आवाज की कॉपी करने के लिए सक्षम बनाती है, जो मनोरंजन और रचनात्मक क्षेत्र में नए संभावनाओं को खोलती है।

इस मॉडल का कोड पूरी तरह से ओपन सोर्स है, जिसे आप GitHub और Hugging Face प्लेटफॉर्म पर पाएंगे, जो स्थानीय इंस्टॉल के साथ समर्थन करता है, जिसके लिए आपको GPU वाले PyTorch या Docker का उपयोग करके सरलीकृत इंस्टॉल करने की आवश्यकता होती है।