阿里通義萬相團隊推出Wan 2.2-S2V模型,實現視頻與音頻同步生成,提升AI視頻製作效率。該模型已在社交媒體平臺X上發佈,爲開發者提供創新AI應用工具。
微軟開源VibeVoice-1.5B音頻模型,實現語音合成技術突破。該模型可一次性合成90分鐘超長語音,遠超此前60分鐘限制,有效解決音色漂移和語義斷裂問題。支持最多四位發言人,合成語音更自然、效果更優。
gguf-org
vibevoice-gguf 是一個基於 Microsoft VibeVoice-1.5B 模型的文本轉語音系統,通過 gguf-connector 運行,能夠將文本轉換為自然語音,支持語音克隆和多說話人語音生成。