超快音效生成模型TangoFlux:僅需3秒鐘就能生成30秒長音頻
在人工智能領域,文本音頻生成技術正逐漸成爲研究的熱點。最近,研究者們推出了一款名爲 TANGOFLUX 的全新模型,該模型在性能和效率上均表現出色。TANGOFLUX 是一種高效的文本到音頻生成模型,擁有515百萬個參數,能夠在短短3.7秒內生成最長可達30秒的44.1kHz 音頻,這一速度讓其在單個 A40GPU 上的表現非常出色。TANGOFLUX主要是特色是可以生成各種音效,例如鳥叫、口哨、爆炸等聲音,另外也支持生成音樂不過效果就不那麼理想了。文本音頻生成模型的一個主要挑戰在於如何創建偏好配對。