AIBase
ホーム
AIニュース
AIツール
AIモデル
MCP
AIサービス
AI計算力
AIチュートリアル
AIデータセット
JA

AIニュース

もっと見る

MOSS-Speechのオープンソース:国内初の音声から音声への大規模モデル テキストの中間処理を不要に

復旦大学MOSSチームがMOSS-Speechをリリースしました。これはエンド・トゥ・エンドの音声会話を初めて実現したモデルで、Hugging Faceで公開されオープンソース化されています。「層分割」アーキテクチャを採用し、元のテキストモデルは固定して、音声理解、意味対応、および音声生成のレイヤーを追加しており、音声質問応答や感情の模倣、笑いの生成を一度に処理でき、従来の3段階フローを必要としません。評価結果では、ZeroSpeech2025タスクにおいて単語誤り率は4.1%に低下し、感情認識の正確度は91.2%に達しています。

12.7k 9 分前
MOSS-Speechのオープンソース:国内初の音声から音声への大規模モデル テキストの中間処理を不要に
AIBase
未来を力づける、あなたの人工知能ソリューションシンクタンク
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
ビジネス協力サイトマップ