科学技術の進歩に伴い、人工知能はもはや冷徹な機械ではなく、ますます人間に近づいています。あなたのスマートアシスタントが流暢な標準中国語だけでなく、あなたの故郷の方言でも会話できたら、どれほど親しみやすい体験になるでしょうか。Bailing-TTS技術の登場は、この想像を現実のものにしようとしています。

image.png

人工知能の世界において、テキスト音声変換(Text-to-Speech、TTS)技術は重要な分野です。これは、機械がテキスト情報をまるで人間が話しているかのような音声に変換することを目指しています。ニューラルネットワークと深層学習技術の急速な発展により、人間レベルに近い音声ライブラリをトレーニングし、それに対応するTTSモデルを開発できるようになりました。しかし、既存のシステムの多くは方言ではない音声しか生成できず、音声品質の向上余地も残されています。

image.png

Bailing-TTS技術の登場は、方言音声合成分野における新たなブレークスルーを意味します。この技術は、多層自己回帰トランスフォーマーモデルに基づいており、豊富な方言データを含む大規模データセットのトレーニング、継続的な半教師あり学習戦略、方言に特化した混合専門家ネットワークアーキテクチャ、および多段階トレーニング戦略を採用することで、テキストから中国語の方言音声を効果的に生成します。

Bailing-TTSのアーキテクチャはいくつかの重要な部分で構成されています:

  • 継続的半教師あり学習: 自発的で表現力豊かなテキストと音声トークンのペアを使用して、2つのモダリティ間の弱いアライメントを促進します。

  • 方言特化型混合専門家ネットワークアーキテクチャ: 多様な中国語の方言の統一表現と各方言の固有表現を学習する混合専門家アーキテクチャを設計しました。

  • 強化学習に基づく階層的後トレーニング拡張技術: 事前トレーニング、微調整、強化学習ベースの戦略を含む4つのトレーニング段階を通じて、多様な中国語の方言の高品質な音声を生成します。

研究者たちは、トレーニングの詳細、評価データセット、評価指標などを含め、Bailing-TTSについて詳細な実験評価を行いました。評価結果によると、Bailing-TTSによって生成された方言音声は、自然度と品質の両方において人間の音声に近づいています。

Bailing-TTSは技術的なブレークスルーだけでなく、幅広い実用的な応用可能性も秘めています。より豊かなチャットサービス体験を提供することから、方言文化の普及促進まで、Bailing-TTSは計り知れない可能性を示しています。

Bailing-TTSは初期の成果を収めていますが、感情音声合成、マルチモーダルサポートなどの面ではさらなる探求が必要です。研究者たちは、ビデオとテキスト入力から高品質のオーディオ(音声/音楽)を生成し、高品質のオーディオとビデオの同時生成の可能性を探求することを目指して、次世代のBailing-TTSモデルの開発を計画しています。

プロジェクトアドレス:https://top.aibase.com/tool/bailing-tts

論文アドレス:https://arxiv.org/pdf/2408.00284