B站文本轉語音模型IndexTTS :支持拼音糾正漢字發音、精準控制停頓
B站的一款基於 XTTS 和 Tortoise 的 GPT 風格文本轉語音(TTS)模型 IndexTTS 正式發佈。該系統在處理中文文本時,具備獨特的拼音糾正漢字發音能力,並能夠通過標點符號在任意位置精準控制停頓。這一創新的技術使得文本轉語音的效果更加自然流暢,受到了廣泛關注。IndexTTS 系統經過數萬小時的數據訓練,已實現業內領先的性能,超越了當前流行的 TTS 系統,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系統的多個模塊經過增強,特別是在揚聲器條件特徵表示和音頻質量優化方面進行了深度改進