ऑडियोसेप एक प्राकृतिक भाषा क्वेरी पर आधारित खुला डोमेन ऑडियो स्रोत पृथक्करण मॉडल है। इसमें पाठ एन्कोडर और पृथक्करण मॉडल दो प्रमुख घटक शामिल हैं। हमने ऑडियोसेप को बड़े पैमाने पर बहु-मोडल डेटासेट पर प्रशिक्षित किया है, और ऑडियो घटना पृथक्करण, वाद्य यंत्र पृथक्करण और ध्वनि वृद्धि सहित कई कार्यों पर इसकी क्षमता का व्यापक मूल्यांकन किया है। ऑडियोसेप शक्तिशाली पृथक्करण प्रदर्शन और प्रभावशाली शून्य-शॉट सामान्यीकरण क्षमता दर्शाता है, ऑडियो शीर्षक या पाठ लेबल को क्वेरी के रूप में उपयोग करके, पिछले ऑडियो क्वेरी और भाषा क्वेरी ध्वनि पृथक्करण मॉडल से काफी बेहतर प्रदर्शन करता है। इस कार्य की पुनरावृत्ति सुनिश्चित करने के लिए, हम स्रोत कोड, मूल्यांकन मानदंड और पूर्व-प्रशिक्षित मॉडल जारी करेंगे।