文本轉語音系統Spark-TTS:支持零樣本語音克隆與細粒度控制
日前,一款名爲 Spark-TTS 的先進文本轉語音系統引發了 AI 社區的廣泛討論。根據最新的 X 帖子和相關研究,這款系統以其零樣本語音克隆和細粒度語音控制能力脫穎而出,展現了語音合成領域的重大突破。這款系統充分利用了大型語言模型(LLM)的強大能力,致力於實現高度準確且自然的語音合成,適用於研究和商業領域。Spark-TTS 的設計理念強調簡潔與高效。該系統完全基於 Qwen2.5構建,摒棄了以往需要額外生成模型的複雜流程。與其他模型不同,Spark-TTS 直接從 LLM 預測的代碼中重建音頻