OuteTTS-0.1-350M:一種新穎的文本轉語音合成方法,具有零樣本語音克隆功能
近日,Oute AI 發佈了一種新穎的文本轉語音合成方法,稱爲 OuteTTS-0.1-350M。這種方法利用純語言建模,無需外部適配器或複雜架構,提供了一種簡化的 TTS 方法。OuteTTS-0.1-350M 基於 LLaMa 架構,使用 WavTokenizer 直接生成音頻標記,使得流程更加高效。該模型具有零樣本語音克隆功能,僅需幾秒鐘的參考音頻即可複製新的聲音。OuteTTS-0.1-350M 專爲設備性能而設計,並與 llama.cpp 兼容,使其成爲實時應用的理想選擇。儘管該模型的參數規模相對較小(3.5億個),但其性能可與更大、更復雜的 TTS 系統