CosyVoice 2は、アリババグループのSpeechLab@Tongyiチームが開発した音声合成モデルです。教師あり離散音声トークンに基づき、言語モデル(LM)とフローマッチングという2つの一般的な生成モデルを組み合わせることで、高い自然度、内容の一貫性、話者類似性を備えた音声合成を実現しています。本モデルは、マルチモーダル大規模言語モデル(LLM)において、特にインタラクティブな体験において応答遅延とリアルタイム性が重要な音声合成に大きな役割を果たします。CosyVoice 2は、有限標量量子化によって音声トークンのコードブック利用率を高め、テキスト音声変換の言語モデルアーキテクチャを簡素化し、ブロック認識因果フローマッチングモデルを設計することで、さまざまな合成シナリオに対応しています。大規模多言語データセットでトレーニングされており、人間並みの合成品質、極めて低い応答遅延、リアルタイム性を備えています。