B站文本转语音模型IndexTTS :支持拼音纠正汉字发音、精准控制停顿
B站的一款基于 XTTS 和 Tortoise 的 GPT 风格文本转语音(TTS)模型 IndexTTS 正式发布。该系统在处理中文文本时,具备独特的拼音纠正汉字发音能力,并能够通过标点符号在任意位置精准控制停顿。这一创新的技术使得文本转语音的效果更加自然流畅,受到了广泛关注。IndexTTS 系统经过数万小时的数据训练,已实现业内领先的性能,超越了当前流行的 TTS 系统,包括 XTTS、CosyVoice2、Fish-Speech 和 F5-TTS 等。系统的多个模块经过增强,特别是在扬声器条件特征表示和音频质量优化方面进行了深度改进