ロボットも流暢な方言を話す!初の標準中国語方言混在TTS大規模モデルBailing-TTSが登場
Bailing-TTS技術は、方言音声合成分野における大きなブレークスルーを示しています。多層自己回帰変換器モデルを用い、大規模な方言データセットに基づいて訓練することで、テキストから人間の声に近い中国方言音声への効率的な変換を実現しました。この技術は継続的な半教師あり学習戦略を採用し、方言特有の混合専門家ネットワークアーキテクチャと多段階トレーニング戦略を組み合わせることで、音声の自然度と品質を大幅に向上させています。研究によると、Bailing-TTSで生成された音声は、様々な方言で優れた性能を示しており、音声案内など幅広い応用が期待されます。