顛覆性開源 TTS 模型 Dia 發佈:情緒、非語言提示全支持,媲美真人對話
一家名爲 Nari Labs 的兩人創業公司發佈了 Dia,這是一個擁有16億參數的文本轉語音 (TTS) 模型,旨在直接從文本提示生成自然對話。其聯合創始人 Toby Kim 聲稱,Dia 的性能超越了 ElevenLabs 等競爭對手的專有產品以及谷歌的 NotebookLM AI 播客生成功能,並可能對 OpenAI 近期發佈的 gpt-4o-mini-tts 構成威脅。Kim 在社交媒體 X 上表示,Dia 在質量上可與 NotebookLM 的播客功能媲美,並優於 ElevenLabs Studio 和 Sesame 的開放模型。他透露,該模型是在“零資金”的情況下構建的,並強調他們並非一開始就是人工