फिश ऑडियो ने OpenAudio S1 जारी किया: पेशेवर पोज़िशन संगीतकारों के समकक्ष AI आवाज़ का नया उच्चकाय

AIbase基地

द्वारा प्रकाशितAI समाचार · 8 मिनट पढ़ें · Jun 4, 2025

1

Fish Audio ने अपनी सबसे हालिया आवाज उत्पादन मॉडल, OpenAudio S1 को जारी किया है। इसके ऊंची गुणवत्ता वाली आवाज, विस्तृत टोन नियंत्रण और शक्तिशाली आदेश पालन क्षमता के साथ, इसे पेशेवर डबिंग एक्टर के बराबर शानदार भावपूर्णता और प्राकृतिकता प्राप्त होने का कहा जाता है। यह मॉडल TTS-Arena रैंकिंग में पहले आकर एक नया प्रमाण बन गया है और टेक्स्ट-टू-स्पीच (TTS) क्षेत्र में नई उम्मीदवार है। AIbase ने OpenAudio S1 के तकनीकी नवाचार और इसके संभावित प्रभाव को गहराई से विश्लेषित किया है।

OpenAudio S1: AI आवाज उत्पादन के अनुभव को फिर से रूपांतरित करना

OpenAudio S1, Fish Audio के Fish Speech श्रृंखला पर एक नया स्तर पर विकसित हुआ है, उनके उन्नत आर्किटेक्चर डिज़ाइन और विशाल प्रशिक्षण डेटा के साथ इसने अभूतपूर्व स्तर की प्राकृतिक आवाज और प्रदर्शन दिखाया है। इसके मुख्य विशेषताएं निम्नलिखित हैं:

उच्च गुणवत्ता वाली आवाज: उत्पन्न आवाज चांद्रिक, निखर और वास्तविकता से जुड़ी हुई है, जो पेशेवर वीडियो डबिंग, पॉडकास्ट और वीडियो गेम्स में उपयोग के लिए अद्वितीय है।

विस्तृत टोन नियंत्रण: इसमें 50 से अधिक भावों और टोन मार्कर शामिल हैं, जैसे कि (क्रोध), (खुशी), (दुःख), (चुपका), (दया) आदि, जिससे उपयोगकर्ता आसानी से आवाज प्रदर्शन को ढांचा दे सकते हैं।

शक्तिशाली आदेश पालन क्षमता: सरल टेक्स्ट आदेशों के माध्यम से उपयोगकर्ता आवाज के गति, आवाज की मात्रा, अंतराल और ताल पर नियंत्रण कर सकते हैं, जो उन्हें बहुत व्यक्तिगत आवाज प्राप्त करने में सक्षम बनाता है।

20 लाख घंटों के ऑडियो डेटा प्रशिक्षण के बल पर, OpenAudio S1 ने आवाज उत्पादन की गुणवत्ता और विविधता में महत्वपूर्ण उल्लेखनीय प्रगति की है, जो अंग्रेजी, हिंदी, जापानी, कोरियन, फ्रेंच, जर्मन, अरबी, स्पैनिश जैसी 13 भाषाओं को समायोजित करता है।

वीडियो ऑफिशियल से, अनुवाद: छोटे उपयोगकर्ता

TTS-Arena पर पहले: पेशेवर का प्रमाण

OpenAudio S1, TTS-Arena के नवीनतम मूल्यांकन में "Anonymous Sparkle" के नाम से पहले आकर बढ़िया प्रदर्शन किया है, जिससे बहुत सारे ओपन सोर्स और विशेषाधिकारिक मॉडलों को पीछे छोड़ गया। TTS-Arena ने विभिन्न TTS मॉडलों के प्राकृतिकता और प्रदर्शन को उपयोगकर्ता मतदान के माध्यम से तुलना की है, जिसमें OpenAudio S1 को उच्चतम प्राकृतिकता और उन्मुख भावनात्मक प्रदर्शन के लिए सर्वसम्मति मिली है।

इसके अलावा, OpenAudio S1 ने Seed TTS मूल्यांकन में भी उत्कृष्ट प्रदर्शन किया है, जहाँ अंग्रेजी शब्दों की त्रुटि दर (WER) 0.008 और वर्णों की त्रुटि दर (CER) 0.004 है, जो पारंपरिक मॉडलों की तुलना में बहुत कम है, इससे इसकी आवाज यथार्थता पर अग्रणी स्थिति प्राप्त हुई है।

तकनीकी उल्लेखनीयता: Dual-AR आर्किटेक्चर और RLHF प्रशिक्षण

नवीनतम Dual-AR आर्किटेक्चर

OpenAudio S1 ने एक विशेष द्वितीयक आर्किटेक्चर (Dual-AR) का उपयोग किया है, जो त्वरित और धीमे ट्रांसफार्मर मॉड्यूल को संयोजित करता है, जिससे आवाज उत्पादन की स्थिरता और कार्यक्षमता में सुधार हुआ है। इस आर्किटेक्चर ने ग्रुप लिमिटेड स्केलर वेक्टर क्वांटाइजेशन (GFSQ) तकनीक का उपयोग करके कोडबुक प्रोसेसिंग क्षमता को सुधार दिया है, जिससे उच्च गुणवत्ता वाली आवाज उत्पादन की सुविधा प्रदान की जाती है, जबकि कम गणना लागत का लाभ होता है।

RLHF प्रशिक्षण से आवाज की भावनात्मक प्रदर्शन

OpenAudio S1 ने ऑनलाइन **आत्मसीमित प्रशिक्षण और मानव प्रतिक्रिया (RLHF)** तकनीक का उपयोग करके आवाज की भावनात्मक प्रदर्शन क्षमता में महत्वपूर्ण सुधार किया है। पारंपरिक TTS मॉडलों की तुलना में, S1 आवाज के स्वर और टोन को अधिक सटीक ढंग से पकड़ने में सक्षम है, जिससे उत्पन्न भावनात्मक प्रदर्शन बहुत अधिक प्राकृतिक होता है। उदाहरण के तौर पर, उपयोगकर्ता चिन्हों का उपयोग करके (उत्साह), (उत्साह लेकिन थोड़ा उत्तेजित) या (खुशी) का नियंत्रण कर सकते हैं, जो विज्ञापन से वर्चुअल एसिस्टेंट तक विभिन्न उपयोग-क्षेत्रों की प्रदर्शन की आवश्यकता पूरी करता है।

वास्तविक अनुप्रयोग: सृजन और व्यापार के लिए सीमा नहीं

OpenAudio S1 की विशिष्टता और उच्च कार्यक्षमता के कारण यह कई क्षेत्रों में बहुत बड़ी उम्मीदवार है:

सामग्री निर्माण: वीडियो, पॉडकास्ट और ऑडियोबुक के लिए पेशेवर स्तर की डबिंग उत्पन्न करने में उच्च प्रदर्शन प्रदान करता है।

वर्चुअल एसिस्टेंट: व्यक्तिगत आवाज नेविगेशन या कस्टमर सर्विस सिस्टम बनाने के लिए समर्थन करता है, जो बहुभाषी इंटरैक्शन की सुविधा प्रदान करता है।

खेल और मनोरंजन: वीडियो गेम के भाषण और नाटक के विवरण को उत्पन्न करने में मदद करता है, जो डूबी हुई अनुभूति बनाता है।

शिक्षा और अनुसंधान: अक्षम लोगों के लिए उच्च गुणवत्ता वाले टेक्स्ट-टू-स्पीच सेवाएं प्रदान करता है, या शिक्षा प्लेटफॉर्म के लिए बहुभाषी शिक्षा सामग्री उत्पन्न करता है।

आवाज बनाम क्लोनिंग की सुविधा

यह लेख AIbase दैनिक से है

【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।

—— AIbase दैनिक समूह द्वारा बनाया गया

AI समाचार

AI दैनिक

AI समयरेखा

अल हार्डवेयर

नवीनतम मामले

छवि संग्रह

वीडियो संग्रह

ऑडियो संग्रह

सामग्री संग्रह

नवीनतम ट्यूटोरियल

AI उत्पाद रैंकिंग

AI ट्रैफ़िक वृद्धि रैंकिंग

AI ट्रैफ़िक गिरावट रैंकिंग

AI साप्ताहिक रैंकिंग

संयुक्त राज्य अमेरिका

चीन

भारत

ब्राजील

छवि निर्माण

निजी सहायक

चरित्र निर्माण

वीडियो निर्माण

AI प्रोजेक्ट रैंकिंग

AI प्रोजेक्ट विकास रैंकिंग

AI डेवलपर रैंकिंग

AI संगठन रैंकिंग

डीपसीक

TTS

LLM

ChatGPT

अवलोकन

फिश ऑडियो ने OpenAudio S1 जारी किया: पेशेवर पोज़िशन संगीतकारों के समकक्ष AI आवाज़ का नया उच्चकाय

AIbase基地

यह लेख AIbase दैनिक से है