小型文本轉語音模型Kokoro-TTS,曾拿下TTS排行榜第一
在人工智能的快速發展中,語音合成技術正日益受到關注。近日,名爲 Kokoro 的最新語音合成模型在 Hugging Face 平臺上正式發佈,該模型具有8200萬參數,標誌着語音合成領域的一個重要里程碑。Kokoro v0.19在發佈之前的幾周裏,在 TTS(文本轉語音)領域的排行榜上位列第一,其表現甚至超過了其他參數更多的模型。這一模型在單聲道設置下,僅用不到100小時的音頻數據,便實現了與467M 參數的 XTTS v2和1.2B 參數的 MetaVoice 等模型相媲美的效果。這一成就表明,傳統語音合成模型的性能與參數、