AI音頻新技術MMAudio:輸入視頻或文本可自動給視頻配音效
近日,來自伊利諾伊大學厄巴納 - 香檳分校、Sony AI 及 Sony 集團公司的研究團隊推出了一項名爲 MMAudio 的新技術,該技術旨在通過多模態聯合訓練,實現高質量的視頻到音頻合成。MMAudio 的核心創新在於能夠利用視頻和文本輸入生成同步的音頻,從而拓展了音頻生成的應用場景,支持輸入視頻或文本,生成符合視頻內容的音效。MMAudio 的設計使其能夠在各種視聽和音頻文本數據集上進行訓練。這種多模態聯合訓練的方式,不僅提高了合成音頻的質量,還確保了生成的音頻與視頻幀之間的同步