StyleTTS 2 एक टेक्स्ट-टू-स्पीच (TTS) मॉडल है जो बड़े स्पीच लैंग्वेज मॉडल (SLM) का उपयोग करके स्टाइल डिफ्यूजन और एडवर्सरी ट्रेनिंग के माध्यम से मानवीय स्तर के TTS संश्लेषण को प्राप्त करता है। यह डिफ्यूजन मॉडल का उपयोग करके स्टाइल को संभावित यादृच्छिक चर के रूप में मॉडल करता है, ताकि पाठ के लिए सबसे उपयुक्त स्टाइल उत्पन्न किया जा सके, बिना किसी वॉयस रेफरेंस के। इसके अतिरिक्त, हम बड़े प्री-ट्रेन्ड SLM (जैसे WavLM) को डिस्क्रिमिनेटर के रूप में उपयोग करते हैं और हमारे इनोवेटिव डिफरेंशिएबल कंटीन्यूअस ड्यूरेशन मॉडलिंग को एंड-टू-एंड ट्रेनिंग के साथ जोड़ते हैं, जिससे स्पीच की प्राकृतिकता में वृद्धि होती है। StyleTTS 2 ने सिंगल स्पीकर LJSpeech डेटासेट पर मानवीय रिकॉर्डिंग को पीछे छोड़ दिया है, और मल्टी स्पीकर VCTK डेटासेट पर इसके साथ मेल खाता है, जिसे देशी अंग्रेजी बोलने वालों द्वारा मान्यता प्राप्त है। इसके अतिरिक्त, जब LibriTTS डेटासेट पर प्रशिक्षित किया जाता है, तो हमारा मॉडल पहले से उपलब्ध ज़ीरो-शॉट एक्सटेंशन मॉडल से बेहतर प्रदर्शन करता है। बड़े SLM के साथ स्टाइल डिफ्यूजन और एडवर्सरी ट्रेनिंग की क्षमता को प्रदर्शित करके, यह कार्य सिंगल और मल्टी स्पीकर डेटासेट पर मानवीय स्तर के TTS संश्लेषण को प्राप्त करता है।