歡迎來到【AI日報】欄目!這裏是你每天探索人工智能世界的指南,每天我們爲你呈現AI領域的熱點內容,聚焦開發者,助你洞悉技術趨勢、瞭解創新AI產品應用。新鮮AI產品點擊瞭解:https://app.aibase.com/zh1、打通AI辦公最後100米!該應用簡化了傳統視頻製作流程,降低了短視頻創作門檻,並預示着GenerativeVideo正在從素材生產向敘事創作代理進化。
微軟開源VibeVoice語音AI模型,支持ASR和TTS,具備長音頻處理、多說話人對話生成及實時低延遲特性,已在GitHub獲27K星。採用MIT協議,支持本地部署,無需雲端費用,旨在推動語音合成領域創新。
微軟推出輕量級實時文本轉語音模型VibeVoice-Realtime-0.5B,支持流式輸入與長篇輸出,適用於代理應用和實時數據講述。該模型能在約300毫秒內開始輸出語音,配合語言模型生成回答。其框架通過連續語音標記實現下一個標記的擴散。
微軟開源實時語音模型VibeVoice-Realtime-0.5B,具備極低延遲和接近真人的語音表現。該模型從文本輸入到發聲平均僅需300毫秒,遠低於傳統TTS模型的1-3秒,實現近乎零延遲的實時語音合成。
開源的前沿語音 AI 模型,支持語音識別和文本轉語音。
FabioSarracino
VibeVoice-Large-Q8是首個真正可用的8位VibeVoice模型,通過選擇性量化技術在大幅減小模型尺寸的同時保持與原始模型相同的音頻質量,適用於顯存有限的場景。
gguf-org
vibevoice-gguf 是一個基於 Microsoft VibeVoice-1.5B 模型的文本轉語音系統,通過 gguf-connector 運行,能夠將文本轉換為自然語音,支持語音克隆和多說話人語音生成。