3月19日、Orpheus TTSというオープンソースのテキスト読み上げ(TTS)モデルが正式に発表されました。このモデルは、人間に近い感情表現、自然で滑らかな音声、そして超低遅延のリアルタイム出力ストリームという特徴から、瞬く間に注目を集めています。リアルタイムの会話シーンで優れた性能を発揮し、スマート音声インタラクションに新たなブレークスルーをもたらすと期待されています。

Orpheus TTSは低遅延と高い感情表現を重視しており、その主な特徴は以下の通りです。  - **超低遅延**:デフォルトの遅延は約200ミリ秒ですが、入力ストリームとモデルのKVキャッシュの最適化により、25~50ミリ秒に短縮でき、リアルタイムの会話ニーズを満たします。  - **感情表現**:音声出力は自然で滑らかで、人間の感情に近く、豊かなイントネーションの変化に対応し、インタラクション体験を向上させます。  - **リアルタイム出力ストリーム**:ストリーミングオーディオ生成に対応しており、音声生成と入力が同期されるため、バーチャルアシスタントやカスタマーサービスシステムなどのシーンに適しています。  

低遅延と高自然度の特性により、Orpheus TTSはリアルタイム会話分野で幅広い可能性を秘めていると考えられています。スマート音声アシスタント、オンライン教育、バーチャルアナウンサー、ゲームキャラクターの声優など、あらゆる場面でより人間味のある音声インタラクション体験を提供できます。さらに、オープンソースであるため、開発者にとってカスタマイズの可能性も広がります。

Orpheus TTSは、感情表現、自然な効果、超低遅延を組み合わせることで、TTS技術の新たな高みを目指しています。音声合成の品質を向上させただけでなく、リアルタイム出力ストリームによって動的なインタラクションシーンに新たな局面を開きました。将来、このモデルはオープンソースTTS分野のベンチマークとなる可能性があります。