微軟開源實時語音模型VibeVoice-Realtime-0.5B,具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒,遠低於傳統TTS模型的1-3秒,實現近乎零延遲的實時語音合成。
微軟推出實時文本轉語音模型VibeVoice-Realtime-0.5B,僅0.5B參數即可實現接近實時的語音生成,最快300毫秒內開始發聲,支持中英文實時轉錄與語音生成,中文表現略遜於英文,但整體流暢度和還原度高,音質自然。