マイクロソフトが VibeVoice-Realtime-0.5B を発表:0.5B のパラメータでほぼリアルタイムの自然な音声生成を実現
マイクロソフトは、リアルタイムのテキストから音声への変換モデルである VibeVoice-Realtime-0.5B をリリースしました。0.5B のパラメータで約300ミリ秒以内に発声を開始し、ほぼリアルタイムでのスムーズな音声生成を実現しています。このモデルは中英両方の言語を対応しており、中国語の表現は英語に比べてやや劣るものの、全体としては高いスムーズさと再現性を保っています。自然な音質が注目されています。