AudioSepは、自然言語クエリに基づくオープン領域の音声源分離モデルです。テキストエンコーダと分離モデルという2つの主要なコンポーネントで構成されています。大規模なマルチモーダルデータセットでAudioSepをトレーニングし、オーディオイベント分離、楽器分離、音声強調など、多くのタスクにおいてその能力を幅広く評価しました。AudioSepは強力な分離性能と印象的なゼロショット汎化能力を示し、オーディオのタイトルやテキストラベルをクエリとして使用することで、従来の音声クエリや言語クエリによる音声分離モデルを大きく凌駕します。本研究の再現性を確保するために、ソースコード、評価ベンチマーク、および事前学習済みモデルを公開します。