AI音声生成分野では、競争が激化しています。最近、韓国の2人の大学生が共同でDiaというAI音声モデルを開発し、GoogleのNotebookLMに匹敵する機能を持つと主張しています。AI分野での経験は浅いものの、わずか3ヶ月でオープンアクセスな音声生成ツールを開発することに成功しました。

QQ_1745375733560.png

Diaのトレーニングには、GoogleのTPU Research Cloudプロジェクトが利用されました。このプロジェクトは、研究者に対してTPU AIチップの無料利用権を提供しています。Diaモデルは1.6億個のパラメータを持ち、与えられたスクリプトに基づいて会話を生成できます。ユーザーは話者のトーンを自由にカスタマイズし、咳や笑い声などの非言語的なヒントを挿入することも可能です。パラメータが多いほど、一般的にモデルの性能は向上します。

Diaは現在、AI開発プラットフォームHugging FaceとGitHubから入手でき、少なくとも10GBのVRAMを搭載した最新のパーソナルコンピュータであればほとんどで使用できます。具体的なスタイルの説明がない場合、Diaはランダムな声を生成しますが、音声クローンを作成することも可能です。

TechCrunchによる初期テストでは、Diaは様々なトピックに関する双方向会話を問題なく生成し、音声品質は市場の他のツールと同等でした。特筆すべきは、Diaの音声クローン機能が記者が試した中で最も使いやすかった点です。

しかし、Diaの安全対策の不足が懸念されています。ユーザーは簡単にこのツールを利用して、虚偽情報や詐欺的な録音を作成することが可能です。NariはDiaのプロジェクトページで、モデルを詐欺やその他の違法行為に使用しないよう呼びかけていますが、モデルの悪用については責任を負わないとしています。さらに、NariはDiaのトレーニングに使用されたデータソースを公開しておらず、著作権で保護されたコンテンツが使用されている可能性があり、関連する法的問題は複雑なままです。

Nari Labsの創設者であるToby Kim氏は、Diaを基盤として「ソーシャル機能」を備えた合成音声プラットフォームを構築する計画であり、将来的にはより多くの言語に対応したいと考えています。Nariはまた、Diaの技術レポートを公開し、影響力の拡大を目指しています。

プロジェクト:https://github.com/nari-labs/dia

要点:

🌟 2人の大学生が作成したAI音声モデルDiaは、会話を生成し、音声クローンに対応しています。

🚀 DiaはGoogleのTPU Research Cloudを使用してトレーニングされ、1.6億個のパラメータを持ち、最新のPCで使用できます。

⚠️ モデルにはセキュリティ上のリスクがあり、Nariは悪用行為について責任を負いません。また、トレーニングデータのソースは公開されていません。