Fish Audio ने अपनी सबसे हालिया आवाज उत्पादन मॉडल, OpenAudio S1 को जारी किया है। इसके ऊंची गुणवत्ता वाली आवाज, विस्तृत टोन नियंत्रण और शक्तिशाली आदेश पालन क्षमता के साथ, इसे पेशेवर डबिंग एक्टर के बराबर शानदार भावपूर्णता और प्राकृतिकता प्राप्त होने का कहा जाता है। यह मॉडल TTS-Arena रैंकिंग में पहले आकर एक नया प्रमाण बन गया है और टेक्स्ट-टू-स्पीच (TTS) क्षेत्र में नई उम्मीदवार है। AIbase ने OpenAudio S1 के तकनीकी नवाचार और इसके संभावित प्रभाव को गहराई से विश्लेषित किया है।

111.jpg

OpenAudio S1: AI आवाज उत्पादन के अनुभव को फिर से रूपांतरित करना

OpenAudio S1, Fish Audio के Fish Speech श्रृंखला पर एक नया स्तर पर विकसित हुआ है, उनके उन्नत आर्किटेक्चर डिज़ाइन और विशाल प्रशिक्षण डेटा के साथ इसने अभूतपूर्व स्तर की प्राकृतिक आवाज और प्रदर्शन दिखाया है। इसके मुख्य विशेषताएं निम्नलिखित हैं:

उच्च गुणवत्ता वाली आवाज: उत्पन्न आवाज चांद्रिक, निखर और वास्तविकता से जुड़ी हुई है, जो पेशेवर वीडियो डबिंग, पॉडकास्ट और वीडियो गेम्स में उपयोग के लिए अद्वितीय है।

विस्तृत टोन नियंत्रण: इसमें 50 से अधिक भावों और टोन मार्कर शामिल हैं, जैसे कि (क्रोध), (खुशी), (दुःख), (चुपका), (दया) आदि, जिससे उपयोगकर्ता आसानी से आवाज प्रदर्शन को ढांचा दे सकते हैं।

शक्तिशाली आदेश पालन क्षमता: सरल टेक्स्ट आदेशों के माध्यम से उपयोगकर्ता आवाज के गति, आवाज की मात्रा, अंतराल और ताल पर नियंत्रण कर सकते हैं, जो उन्हें बहुत व्यक्तिगत आवाज प्राप्त करने में सक्षम बनाता है।

20 लाख घंटों के ऑडियो डेटा प्रशिक्षण के बल पर, OpenAudio S1 ने आवाज उत्पादन की गुणवत्ता और विविधता में महत्वपूर्ण उल्लेखनीय प्रगति की है, जो अंग्रेजी, हिंदी, जापानी, कोरियन, फ्रेंच, जर्मन, अरबी, स्पैनिश जैसी 13 भाषाओं को समायोजित करता है।

वीडियो ऑफिशियल से, अनुवाद: छोटे उपयोगकर्ता

TTS-Arena पर पहले: पेशेवर का प्रमाण

OpenAudio S1, TTS-Arena के नवीनतम मूल्यांकन में "Anonymous Sparkle" के नाम से पहले आकर बढ़िया प्रदर्शन किया है, जिससे बहुत सारे ओपन सोर्स और विशेषाधिकारिक मॉडलों को पीछे छोड़ गया। TTS-Arena ने विभिन्न TTS मॉडलों के प्राकृतिकता और प्रदर्शन को उपयोगकर्ता मतदान के माध्यम से तुलना की है, जिसमें OpenAudio S1 को उच्चतम प्राकृतिकता और उन्मुख भावनात्मक प्रदर्शन के लिए सर्वसम्मति मिली है।

इसके अलावा, OpenAudio S1 ने Seed TTS मूल्यांकन में भी उत्कृष्ट प्रदर्शन किया है, जहाँ अंग्रेजी शब्दों की त्रुटि दर (WER) 0.008 और वर्णों की त्रुटि दर (CER) 0.004 है, जो पारंपरिक मॉडलों की तुलना में बहुत कम है, इससे इसकी आवाज यथार्थता पर अग्रणी स्थिति प्राप्त हुई है।

तकनीकी उल्लेखनीयता: Dual-AR आर्किटेक्चर और RLHF प्रशिक्षण

नवीनतम Dual-AR आर्किटेक्चर

OpenAudio S1 ने एक विशेष द्वितीयक आर्किटेक्चर (Dual-AR) का उपयोग किया है, जो त्वरित और धीमे ट्रांसफार्मर मॉड्यूल को संयोजित करता है, जिससे आवाज उत्पादन की स्थिरता और कार्यक्षमता में सुधार हुआ है। इस आर्किटेक्चर ने ग्रुप लिमिटेड स्केलर वेक्टर क्वांटाइजेशन (GFSQ) तकनीक का उपयोग करके कोडबुक प्रोसेसिंग क्षमता को सुधार दिया है, जिससे उच्च गुणवत्ता वाली आवाज उत्पादन की सुविधा प्रदान की जाती है, जबकि कम गणना लागत का लाभ होता है।

RLHF प्रशिक्षण से आवाज की भावनात्मक प्रदर्शन

OpenAudio S1 ने ऑनलाइन **आत्मसीमित प्रशिक्षण और मानव प्रतिक्रिया (RLHF)** तकनीक का उपयोग करके आवाज की भावनात्मक प्रदर्शन क्षमता में महत्वपूर्ण सुधार किया है। पारंपरिक TTS मॉडलों की तुलना में, S1 आवाज के स्वर और टोन को अधिक सटीक ढंग से पकड़ने में सक्षम है, जिससे उत्पन्न भावनात्मक प्रदर्शन बहुत अधिक प्राकृतिक होता है। उदाहरण के तौर पर, उपयोगकर्ता चिन्हों का उपयोग करके (उत्साह), (उत्साह लेकिन थोड़ा उत्तेजित) या (खुशी) का नियंत्रण कर सकते हैं, जो विज्ञापन से वर्चुअल एसिस्टेंट तक विभिन्न उपयोग-क्षेत्रों की प्रदर्शन की आवश्यकता पूरी करता है।

वास्तविक अनुप्रयोग: सृजन और व्यापार के लिए सीमा नहीं

OpenAudio S1 की विशिष्टता और उच्च कार्यक्षमता के कारण यह कई क्षेत्रों में बहुत बड़ी उम्मीदवार है:

सामग्री निर्माण: वीडियो, पॉडकास्ट और ऑडियोबुक के लिए पेशेवर स्तर की डबिंग उत्पन्न करने में उच्च प्रदर्शन प्रदान करता है।

वर्चुअल एसिस्टेंट: व्यक्तिगत आवाज नेविगेशन या कस्टमर सर्विस सिस्टम बनाने के लिए समर्थन करता है, जो बहुभाषी इंटरैक्शन की सुविधा प्रदान करता है।

खेल और मनोरंजन: वीडियो गेम के भाषण और नाटक के विवरण को उत्पन्न करने में मदद करता है, जो डूबी हुई अनुभूति बनाता है।

शिक्षा और अनुसंधान: अक्षम लोगों के लिए उच्च गुणवत्ता वाले टेक्स्ट-टू-स्पीच सेवाएं प्रदान करता है, या शिक्षा प्लेटफॉर्म के लिए बहुभाषी शिक्षा सामग्री उत्पन्न करता है।

आवाज बनाम क्लोनिंग की सुविधा