配音員危!微軟VALL-E 2模型語音克隆達到配音員水準
微軟近期發佈了一款零樣本文本到語音(TTS)模型VALLE-2,該成果在技術界引發熱議,被認爲是TTS領域的里程碑。VALLE-2的創新之處在於其零樣本學習能力,僅需一小段陌生語音樣本,便能模仿聲音說任意文本,實現了驚人的即時模仿和編碼器分組。它還改進了重複感知採樣,提高解碼穩定性,並簡化了數據需求。在主觀評分和客觀指標的測試中,VALLE-2超越了前代模型VALLE,幾乎達到人類語音水平。然而,強大的語音模仿能力也引發了對Deepfake技術濫用的擔憂,特別是關於倫理考量和潛在風險,如模型對非英美口音處理能力及計算效率的改進空間。當前,微軟僅將其作爲研究項目,並強調了合成語音檢測和授權機制的重要性。未來在語音助手、內容創作等領域的應用值得期待,同時需要關注技術的倫理使用與風險防控。更多關於VALLE-2的信息可訪問項目頁面:Microsoft官網。