Nari Labsという2人組のスタートアップ企業が、16億パラメーターを持つテキスト音声変換(TTS)モデル「Dia」をリリースしました。テキストプロンプトから自然な会話を直接生成することを目指しています。共同創業者のToby Kim氏は、Diaのパフォーマンスは、ElevenLabsなどの競合他社のプロプライエタリ製品や、GoogleのNotebookLM AIポッドキャスト生成機能を凌駕し、OpenAIが最近リリースしたgpt-4o-mini-ttsにも脅威となる可能性があると主張しています。

Kim氏は、ソーシャルメディアXで、Diaの品質はNotebookLMのポッドキャスト機能に匹敵し、ElevenLabs StudioやSesameのオープンモデルよりも優れていると述べています。彼は、このモデルが「ゼロ資金」で構築されたことを明らかにし、彼らが最初からAIの専門家ではなかったこと、NotebookLMのポッドキャスト機能への熱意からこのプロジェクトを始めたことを強調しました。彼らは市場に出回っているすべてのTTS APIを試しましたが、どれも十分に自然ではありませんでした。Kim氏は、GoogleがDiaのトレーニングにテンソル処理ユニットチップ(TPU)の使用を許可してくれたことに感謝しています。

現在、Diaのコードと重みはHugging FaceとGithubでオープンソース化されており、ユーザーはダウンロードしてローカルに展開できます。個人ユーザーはHugging Face Spaceでオンラインで体験することもできます。

音声制御

高度な制御とさらなるカスタマイズ機能

Diaは、感情的なトーン、話者マーカー、(笑い)、(咳)、(咳払い)などの非言語的な音声プロンプトなど、詳細な機能をサポートしており、これらはすべて純粋なテキストだけで実現できます。Nari Labsの例では、Diaがこれらのタグを正しく解釈できるのに対し、他のモデルでは信頼できるサポートができないことが示されています。このモデルは現在英語のみをサポートしており、ユーザーが生成シードを変更するか、音声プロンプトを提供して音声クローンを作成しない限り、毎回異なる音声になります。

Nari Labsは、自社ウェブサイトでDiaとElevenLabs Studio、Sesame CSM-1Bの比較例を示し、自然なリズム、非言語表現、多感情の会話、複雑なリズムの内容、音声プロンプトによる音声スタイルの継続などにおけるDiaの優位性を示しています。Nari Labsは、Sesameのデモでは内部でより大きなパラメーターを持つバージョンが使用されている可能性があると指摘しています。

モデルへのアクセスと技術仕様

開発者は、Nari LabsのGitHubリポジトリとHugging FaceモデルページからDiaを入手できます。このモデルはPyTorch2.0+とCUDA12.6で動作し、約10GBのVRAMが必要です。Nari Labsは、将来的にCPUサポートと量子化バージョンを提供する予定です。

Diaは完全にオープンソースのApache2.0ライセンスで配布されており、商用利用が許可されています。Nari Labsは、非倫理的な目的での使用を禁止し、責任ある実験を推奨しています。このプロジェクトの開発は、Google TPU Research Cloud、Hugging FaceのZeroGPU資金提供プログラム、およびその他の関連研究によって支援されています。Nari Labsはわずか2人のエンジニアで構成されていますが、コミュニティからの積極的な貢献を歓迎しています。