Kyutai Labs 开源 Kyutai TTS:低延迟流式文本转语音技术
7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)技术——Kyutai TTS,为开发者与AI爱好者带来高效、实时的语音生成解决方案。Kyutai TTS以低延迟与高保真声音为亮点,支持文本流式传输,无需完整文本即可开始生成音频,特别适合实时交互场景。Kyutai TTS在性能上表现卓越。使用单块NVIDIA L40S GPU,该模型可同时处理32个请求,延迟仅为350毫秒。此外,系统不仅生成高质量音频,还能输出单词的精确时间戳,方便实时字幕生成或交互式应用,如Unmute平台的中断处理功能。在语言