MOSS-Speechのオープンソース:国内初の音声から音声への大規模モデル テキストの中間処理を不要に
復旦大学MOSSチームがMOSS-Speechをリリースしました。これはエンド・トゥ・エンドの音声会話を初めて実現したモデルで、Hugging Faceで公開されオープンソース化されています。「層分割」アーキテクチャを採用し、元のテキストモデルは固定して、音声理解、意味対応、および音声生成のレイヤーを追加しており、音声質問応答や感情の模倣、笑いの生成を一度に処理でき、従来の3段階フローを必要としません。評価結果では、ZeroSpeech2025タスクにおいて単語誤り率は4.1%に低下し、感情認識の正確度は91.2%に達しています。