प्रसिद्ध आईएए उद्यमी ली मू अपने टीम बोसॉन.एआई के साथ हाल ही में एक नया ओपन सोर्स पाठ से बोलने (टीटीएस) महामॉडल - हिग्स ऑडियो v2 लॉन्च किया है। यह मॉडल पाठ को बोलने में बदल सकता है, और इसमें बहुभाषी बातचीत जनन, छंद के स्वचालित समायोजन और आवाज की कॉपी करने जैसी कई विशेषताएं हैं, जो ध्वनि संश्लेषण के क्षेत्र में एक महान उपलब्धि है।
हिग्स ऑडियो v2 की शक्ति इसकी बहुमाध्यमिक क्षमता में है, जो केवल पाठ सूचना के साथ ही नहीं, बल्कि ध्वनि के अर्थ को समझ और उत्पन्न कर सकता है और जटिल कार्य कर सकता है। उदाहरण के लिए, यह एक गाना लिख सकता है और विशिष्ट आवाज के साथ गाना सुना सकता है, साथ ही पृष्ठभूमि संगीत के साथ भी जोड़ सकता है, जो पहले टीटीएस तकनीक में असंभव था।
इस मॉडल को 10 मिलियन घंटे ध्वनि डेटा के साथ प्रशिक्षित किया गया है, जो विभिन्न मानक परीक्षणों में अच्छे प्रदर्शन सुनिश्चित करता है। एमर्जेंटटीटीएस-ईवैल टेस्ट के अनुसार, हिग्स ऑडियो v2 "भावना" और "सवाल" के दो श्रेणियों में GPT-4o-mini-tts के मुकाबले क्रमशः 75.7% और 55.7% अधिक जीत दर रखता है। पारंपरिक टीटीएस परीक्षण में, यह मॉडल अद्वितीय क्षमता दिखाता है और उद्योग के मानक बन जाता है।
तकनीकी रूप से, हिग्स ऑडियो v2 उन्नत डेटा प्रसंस्करण विधि का उपयोग करता है, जहां प्रति सेकंड 25 फ्रेम के ध्वनि संकेत को असतत ध्वनि वर्ड सेट में परिवर्तित कर दिया जाता है, जिससे अर्थ और ध्वनि विशेषताओं की निश्चित रूप से पहचान की जा सकती है। साथ ही, मॉडल संरचना में पूर्व-प्रशिक्षित बड़े भाषा मॉडल का उपयोग किया गया है, जो भाषा और संदर्भ के अर्थ के बारे में समझ में आता है। इसके अलावा, यह मॉडल संदर्भ शिक्षा क्षमता रखता है, जो नए कार्यों के लिए तेजी से अनुकूलन कर सकता है और शून्य-नमूना ध्वनि कॉपी कर सकता है।
अनुप्रयोगों में, हिग्स ऑडियो v2 वास्तविक समय ध्वनि चैट कर सकता है, जो कम लेटेंसी और भावनात्मक अभिव्यक्ति के साथ प्राकृतिक अंतःक्रिया प्रदान करता है, जो वर्चुअल ब्रॉडकास्टर और वास्तविक समय ध्वनि सहायक के लिए बहुत उपयुक्त है। ध्वनि सामग्री रचना के मामले में, यह प्राकृतिक बातचीत और निर्देशक के लिए उत्पन्न कर सकता है, जो ऑडियो बुक, अंतःक्रिया प्रशिक्षण और डायनामिक कहानी बताने के लिए शक्तिशाली समर्थन प्रदान करता है। अंत में, ध्वनि कॉपी क्षमता इसे विशिष्ट व्यक्ति की आवाज की कॉपी करने के लिए सक्षम बनाती है, जो मनोरंजन और रचनात्मक क्षेत्र में नए संभावनाओं को खोलती है।
इस मॉडल का कोड पूरी तरह से ओपन सोर्स है, जिसे आप GitHub और Hugging Face प्लेटफॉर्म पर पाएंगे, जो स्थानीय इंस्टॉल के साथ समर्थन करता है, जिसके लिए आपको GPU वाले PyTorch या Docker का उपयोग करके सरलीकृत इंस्टॉल करने की आवश्यकता होती है।