小型文本转语音模型Kokoro-TTS,曾拿下TTS排行榜第一
在人工智能的快速发展中,语音合成技术正日益受到关注。近日,名为 Kokoro 的最新语音合成模型在 Hugging Face 平台上正式发布,该模型具有8200万参数,标志着语音合成领域的一个重要里程碑。Kokoro v0.19在发布之前的几周里,在 TTS(文本转语音)领域的排行榜上位列第一,其表现甚至超过了其他参数更多的模型。这一模型在单声道设置下,仅用不到100小时的音频数据,便实现了与467M 参数的 XTTS v2和1.2B 参数的 MetaVoice 等模型相媲美的效果。这一成就表明,传统语音合成模型的性能与参数、