OuteTTS-0.1-350M:ゼロショット音声クローン機能を備えた革新的なテキスト音声変換手法
Oute AIは最近、OuteTTS-0.1-350Mと呼ばれる革新的なテキスト音声変換手法を発表しました。この手法は純粋な言語モデリングを利用し、外部アダプターや複雑なアーキテクチャを必要とせず、簡素化されたTTS手法を提供します。OuteTTS-0.1-350MはLLaMaアーキテクチャに基づいており、WavTokenizerを使用して直接オーディオトークンを生成することで、より効率的なプロセスを実現しています。このモデルはゼロショット音声クローン機能を備えており、数秒間の参照音声だけで音声クローンを作成できます。