AudioSep ist ein auf natürlichsprachigen Abfragen basierendes, domänenübergreifendes Modell zur Audioquellenseparation. Es besteht aus zwei zentralen Komponenten: einem Text-Encoder und einem Separationsmodell. Wir haben AudioSep auf einem groß angelegten multimodalen Datensatz trainiert und seine Fähigkeiten in zahlreichen Aufgaben umfassend evaluiert, darunter die Separation von Audioereignissen, Instrumenten und die Sprachverbesserung. AudioSep zeigt eine starke Separationsleistung und eine beeindruckende Nullschuss-Generalisierungsfähigkeit. Die Verwendung von Audiotiteln oder Textlabels als Abfrage übertrifft deutlich bisherige Modelle zur Audio- und Sprach-basierten Klangseparation. Um die Reproduzierbarkeit dieser Arbeit zu gewährleisten, werden wir den Quellcode, die Evaluationsbenchmarks und vortrainierte Modelle veröffentlichen.