अमेज़न ने अब तक के सबसे बड़े टेक्स्ट-टू-स्पीच मॉडल BASE TTS का अनावरण किया

站长之家
57
अमेज़न के AGI टीम ने अब तक का सबसे बड़ा टेक्स्ट-टू-स्पीच मॉडल पेश किया है, जिसमें सबसे अधिक पैरामीटर और सबसे बड़ा प्रशिक्षण डेटा सेट है। टीम मानव आवाज की गुणवत्ता में सुधार लाने के लिए सीखे गए ज्ञान का उपयोग करने की योजना बना रही है। नए मॉडल का नाम BASE TTS है, जिसमें 98 अरब पैरामीटर हैं और इसे 1 लाख घंटे की रिकॉर्डिंग डेटा से प्रशिक्षित किया गया है। टीम BASE TTS को अध्ययन एप्लिकेशन में उपयोग करने की योजना बना रही है, ताकि टेक्स्ट-टू-स्पीच एप्लिकेशनों में मानव आवाज की गुणवत्ता में सुधार किया जा सके।
यह लेख AIbase दैनिक से है
【AI दैनिक】 कॉलम में आपका स्वागत है! यहाँ आर्टिफ़िशियल इंटेलिजेंस की दुनिया का पता लगाने के लिए आपकी दैनिक मार्गदर्शिका है। हर दिन हम आपके लिए AI क्षेत्र की हॉट कंटेंट पेश करते हैं, डेवलपर्स पर ध्यान केंद्रित करते हैं, तकनीकी रुझानों को समझने में आपकी मदद करते हैं और अभिनव AI उत्पाद अनुप्रयोगों को समझते हैं।
—— AIbase दैनिक समूह द्वारा बनाया गया
© सर्वाधिकार सुरक्षित AIbase बेस 2024, स्रोत देखने के लिए क्लिक करें -