Kyutai Labs 開源 Kyutai TTS:低延遲流式文本轉語音技術
7月3日,法國AI研究機構Kyutai Labs宣佈開源其最新文本轉語音(TTS)技術——Kyutai TTS,爲開發者與AI愛好者帶來高效、實時的語音生成解決方案。Kyutai TTS以低延遲與高保真聲音爲亮點,支持文本流式傳輸,無需完整文本即可開始生成音頻,特別適合實時交互場景。Kyutai TTS在性能上表現卓越。使用單塊NVIDIA L40S GPU,該模型可同時處理32個請求,延遲僅爲350毫秒。此外,系統不僅生成高質量音頻,還能輸出單詞的精確時間戳,方便實時字幕生成或交互式應用,如Unmute平臺的中斷處理功能。在語言