画期的なオープンソースTTSモデル「Dia」リリース:感情表現、非言語的指示を完全にサポートし、人間の音声に匹敵
Nari Labsという2人組のスタートアップ企業が、16億パラメーターを持つテキスト読み上げ(TTS)モデル「Dia」をリリースしました。これは、テキストプロンプトから自然な会話を直接生成することを目的としています。共同設立者のToby Kim氏は、Diaのパフォーマンスは、ElevenLabsなどの競合他社の独自製品や、GoogleのNotebookLM AIポッドキャスト生成機能を凌駕し、OpenAIが最近リリースしたgpt-4o-miniにも匹敵する可能性があると主張しています。