最近、テンセントのARCチームは、長編の物語音声を生成するための大規模言語モデル(LLMs)を活用した「AudioStory」というモデルをリリースしました。このモデルは、短い音声処理において優れた現行のテキストから音声への生成技術と、長編の物語音声における時間的連続性と組み合わせ推論の課題を解決しています。

image.png

AudioStoryの核心は、統一された理解と生成フレームワークにあります。このモデルは、動画のナレーション、音声の継続、長編の物語音声合成などのさまざまなタスクを処理できます。大規模言語モデルと音声生成システムを組み合わせることで、構造化され、時間的に一貫した音声の物語を作成できます。このモデルは強力な指示追従推論生成能力を持ち、複雑な物語の質問を時間順に並べたサブタスクに分解でき、場面の変換の連続性と感情のトーンの一貫性を保つことができます。

image.png

AudioStoryの二つの顕著な特徴は次の通りです:第一に、大規模言語モデルと音声生成器の協力を二つの専門的な部分に分離する「脱結合されたブリッジメカニズム」;第二に、一貫した指示理解と音声生成を統一する「エンドツーエンドのトレーニング方式」により、コンポーネント間の協調効果を向上させます。

また、研究チームは、「AudioStory-10K」というベンチマークデータセットを構築し、アニメーションの音景や自然音の物語など多様な領域をカバーしています。多数の実験を通じて、AudioStoryは単一の音声生成および物語音声生成において、従来のテキストから音声への生成モデルよりも優れた性能を示し、優れた指示追従能力和音声品質を備えています。

現在、チームはモデルの推論コードを公開しており、いくつかのデモビデオも紹介しています。これらには、有名なアニメ「猫と鼠」のナレーションの例や、テキストに基づいて長時間の音声を生成する応用ケースが含まれており、このモデルの広範な適用可能性と強力な機能を示しています。

プロジェクト:https://github.com/TencentARC/AudioStory

ポイント:  

🎧 **AudioStoryは、テンセントのARCによって開発された長編の物語音声生成モデルであり、大規模言語モデルと音声生成技術を組み合わせています。**  

📊 **モデルは強力な指示追従能力を持ち、連続的な音声の物語を生成し、ユーザー体験を向上させます。**  

🛠️ **チームは推論コードを公開し、複数の応用ケースを紹介しており、動画のナレーションや長時間の音声生成での利点を示しています。**