字節開源嘴型同步模型LatentSync,實現超真實口型同步
近日,字節跳動發佈了名爲 LatentSync 的新型口型同步框架,旨在利用音頻條件潛在擴散模型實現更精確的口型同步。該框架基於Stable Diffusion,針對時間一致性做了優化。與以往的基於像素空間擴散或兩階段生成的方法不同,LatentSync 採用端到端的方式,無需中間運動表示,能夠直接建模複雜的音頻與視覺之間的關係。在 LatentSync 的框架中,首先使用 Whisper 將音頻頻譜圖轉換爲音頻嵌入,並通過交叉注意力層將其集成到 U-Net 模型中。框架通過將參考幀和掩碼幀與噪聲潛在變量進行通道級拼接