Play AI ने हाल ही में एक नई ध्वनि संपादन मॉडल को खुला स्रोत (open-source) के रूप में लॉन्च किया है, जिसका नाम है PlayDiffusion। यह एक अनुप्रयोग उपकरण है, जो फैज़ल बास्तविकता (diffusion model) के आधार पर बना है और ध्वनि के कुछ हिस्सों को संशोधित करने के लिए डिज़ाइन किया गया है। परंपरागत पाठ से ध्वनि प्रणालियों की तुलना में, PlayDiffusion के पास ध्वनि के किसी भी हिस्से को बदलने, हटाने या समायोजित करने की क्षमता है, जबकि बाकी हिस्से पूरी तरह से अपरिवर्तित रहते हैं। इस तरह का प्रक्रिया न केवल अधिक कुशल बनाती है, बल्कि ध्वनि संपादन को "देखे-जैसे-प्राप्त" (what-you-hear-is-what-you-get) के एक नये युग में ले जाती है।

उपयोगकर्ता केवल लक्ष्य पाठ (जैसे, ध्वनि में "Neo" को "Morpheus" में बदलना) प्रदान करते हैं, तो मॉडल सटीक रूप से बदलने वाले हिस्से को पहचान लेता है और गति, टोन और बोलने वाले व्यक्ति के स्वर को बुद्धिमान ढंग से समायोजित करता है, जिससे एक अस्पष्ट और प्राकृतिक संलयन हासिल किया जाता है। PlayDiffusion की क्षमता इस तरह से लोगों के बाद की छेदनीयता (टूटने की भावना) को निष्कासित करने में मदद करती है, और इसका सुनाई पड़ना बिल्कुल भी जोड़े की बात नहीं होती है।

फैज़ल बास्तविकता (diffusion model) के संकलन के प्रभाव के कारण, एक बड़े हिस्से को मास्क (mask) करने वाली अत्यधिक आवश्यकताओं में भी यह उच्च गुणवत्ता वाला एक नॉन-सेलफ-रेग्रेशन (non-self-regression) टेक्स्ट-टू-स्पीच (text-to-speech) मॉडल के रूप में काम कर सकता है। परंपरागत टेक्स्ट-टू-स्पीच (TTS) प्रणालियों की तुलना में, PlayDiffusion की तर्कशक्ति (inference speed) 50 गुना अधिक तेज है और उसकी बेहतरीन समग्र सामंजस्यता (global coherence) है, जो उच्च कुशलता और गुणवत्ता वाले ध्वनि संयोजन के लिए उपयुक्त है।

इस तकनीक का परिणाम पोडकास्ट निर्माण, AI प्रोडक्शन, सामग्री की सुधार, नाटकीय बातचीत का दूसरा संस्करण करने जैसे कई स्थितियों के लिए महत्वपूर्ण है। PlayDiffusion एक सिर्फ ध्वनि संपादन उपकरण नहीं है, बल्कि ध्वनि उत्पादन के क्षेत्र में "सटीक, लचीला और प्राकृतिक" तरीके से बदलाव का महत्वपूर्ण संकेत है। वर्तमान में, ध्वनि AI के व्यापक प्रसार के साथ, यह एक अनिवार्य उपकरण बन जाएगा जो पोडकास्ट और वीडियो सामग्री निर्माण के लिए आवश्यक होगा।