オープンソースの音声合成(TTS)技術で新たな突破が達成されました! 先日公開されたMuyan-TTSは、ポッドキャスト、オーディオブック、長尺ビデオなど、特定のシナリオに特化した設計のオープンソースTTSモデルで、ゼロショット音声合成、超高速生成、高一貫性の読み上げ機能を備えています。現在、長時間のオーディオコンテンツをバッチ生成するのに最も適したモデルの一つです。

QQ20250513-085410.png

Muyan-TTSは、10万時間を超えるポッドキャストデータで事前学習されています。わずか0.33秒で高品質な音声を1秒間生成でき、自然でスムーズな発話で数分間のテキストを無停電で読むことができます。さらに、話者のカスタマイズ機能を提供し、ワンクリックで独自のトーンやリズムを持つ個別化されたコンテンツを生成することができます。

このモデルはHugging Faceで利用可能で、オフラインでの展開もサポートしています。開発者はローカル推論を行いやすく、ポッドキャスト制作、オーディオブック制作、英語映像の吹き替え、AIキャラクターのナレーション、スマートスピーカーのアナウンスなど、さまざまなアプリケーションに容易に適応できます。これにより、コンテンツ生産効率が大幅に向上します。

興味のある開発者の方は、Hugging Faceでモデルの重みとサンプルコードを入手して、AI音声制作の旅を始めることができます。

GitHubオープンソースアドレス: https://github.com/MYZY-AI/Muyan-TTS

HFモデルアドレス: https://huggingface.co/MYZY-AI/Muyan-TTS