अमेज़न के AGI टीम ने अब तक का सबसे बड़ा टेक्स्ट-टू-स्पीच मॉडल पेश किया है, जिसमें सबसे अधिक पैरामीटर और सबसे बड़ा प्रशिक्षण डेटा सेट है। टीम मानव आवाज की गुणवत्ता में सुधार लाने के लिए सीखे गए ज्ञान का उपयोग करने की योजना बना रही है। नए मॉडल का नाम BASE TTS है, जिसमें 98 अरब पैरामीटर हैं और इसे 1 लाख घंटे की रिकॉर्डिंग डेटा से प्रशिक्षित किया गया है। टीम BASE TTS को अध्ययन एप्लिकेशन में उपयोग करने की योजना बना रही है, ताकि टेक्स्ट-टू-स्पीच एप्लिकेशनों में मानव आवाज की गुणवत्ता में सुधार किया जा सके।