阿里通义万相团队推出Wan 2.2-S2V模型,实现视频与音频同步生成,提升AI视频制作效率。该模型已在社交媒体平台X上发布,为开发者提供创新AI应用工具。
微软开源VibeVoice-1.5B音频模型,实现语音合成技术突破。该模型可一次性合成90分钟超长语音,远超此前60分钟限制,有效解决音色漂移和语义断裂问题。支持最多四位发言人,合成语音更自然、效果更优。
gguf-org
vibevoice-gguf 是一个基于 Microsoft VibeVoice-1.5B 模型的文本转语音系统,通过 gguf-connector 运行,能够将文本转换为自然语音,支持语音克隆和多说话人语音生成。