颠覆性开源 TTS 模型 Dia 发布:情绪、非语言提示全支持,媲美真人对话
一家名为 Nari Labs 的两人创业公司发布了 Dia,这是一个拥有16亿参数的文本转语音 (TTS) 模型,旨在直接从文本提示生成自然对话。其联合创始人 Toby Kim 声称,Dia 的性能超越了 ElevenLabs 等竞争对手的专有产品以及谷歌的 NotebookLM AI 播客生成功能,并可能对 OpenAI 近期发布的 gpt-4o-mini-tts 构成威胁。Kim 在社交媒体 X 上表示,Dia 在质量上可与 NotebookLM 的播客功能媲美,并优于 ElevenLabs Studio 和 Sesame 的开放模型。他透露,该模型是在“零资金”的情况下构建的,并强调他们并非一开始就是人工