欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南,每天我们为你呈现AI领域的热点内容,聚焦开发者,助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://app.aibase.com/zh1、打通AI办公最后100米!该应用简化了传统视频制作流程,降低了短视频创作门槛,并预示着GenerativeVideo正在从素材生产向叙事创作代理进化。
微软开源VibeVoice语音AI模型,支持ASR和TTS,具备长音频处理、多说话人对话生成及实时低延迟特性,已在GitHub获27K星。采用MIT协议,支持本地部署,无需云端费用,旨在推动语音合成领域创新。
微软推出轻量级实时文本转语音模型VibeVoice-Realtime-0.5B,支持流式输入与长篇输出,适用于代理应用和实时数据讲述。该模型能在约300毫秒内开始输出语音,配合语言模型生成回答。其框架通过连续语音标记实现下一个标记的扩散。
微软开源实时语音模型VibeVoice-Realtime-0.5B,具备极低延迟和接近真人的语音表现。该模型从文本输入到发声平均仅需300毫秒,远低于传统TTS模型的1-3秒,实现近乎零延迟的实时语音合成。
开源的前沿语音 AI 模型,支持语音识别和文本转语音。
FabioSarracino
VibeVoice-Large-Q8是首个真正可用的8位VibeVoice模型,通过选择性量化技术在大幅减小模型尺寸的同时保持与原始模型相同的音频质量,适用于显存有限的场景。
gguf-org
vibevoice-gguf 是一个基于 Microsoft VibeVoice-1.5B 模型的文本转语音系统,通过 gguf-connector 运行,能够将文本转换为自然语音,支持语音克隆和多说话人语音生成。