声優危機!Microsoft VALL-E 2モデル、音声クローン技術が声優レベルに到達
Microsoftは最近、ゼロショットテキスト音声変換(TTS)モデルであるVALL-E 2を発表し、技術界で大きな話題となり、TTS分野の画期的な成果として注目されています。VALL-E 2の革新的な点は、ゼロショット学習能力です。わずかな未知の音声サンプルだけで、任意のテキストをその声で模倣することができ、驚くべきリアルタイム模倣とエンコーダーグループ化を実現しました。また、リピート感知サンプリングを改良し、デコーディングの安定性を向上させ、データの必要性を簡素化しました。主観評価と客観指標のテストにおいて、VALL-E 2は前世代のモデルを上回りました。