微软推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,支持流式输入与长篇输出,适用于代理应用和实时数据讲述。该模型能在约300毫秒内开始输出语音,配合语言模型生成回答。其框架通过连续语音标记实现下一个标记的扩散。
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
微软推出实时文本转语音模型VibeVoice-Realtime-0.5B,仅0.5B参数即可实现接近实时的语音生成,最快300毫秒内开始发声,支持中英文实时转录与语音生成,中文表现略逊于英文,但整体流畅度和还原度高,音质自然。
阿里通义万相团队推出Wan 2.2-S2V模型,实现视频与音频同步生成,提升AI视频制作效率。该模型已在社交媒体平台X上发布,为开发者提供创新AI应用工具。
FabioSarracino
VibeVoice-Large-Q8是首个真正可用的8位VibeVoice模型,通过选择性量化技术在大幅减小模型尺寸的同时保持与原始模型相同的音频质量,适用于显存有限的场景。
gguf-org
vibevoice-gguf 是一个基于 Microsoft VibeVoice-1.5B 模型的文本转语音系统,通过 gguf-connector 运行,能够将文本转换为自然语音,支持语音克隆和多说话人语音生成。