AI音频新技术MMAudio:输入视频或文本可自动给视频配音效
近日,来自伊利诺伊大学厄巴纳 - 香槟分校、Sony AI 及 Sony 集团公司的研究团队推出了一项名为 MMAudio 的新技术,该技术旨在通过多模态联合训练,实现高质量的视频到音频合成。MMAudio 的核心创新在于能够利用视频和文本输入生成同步的音频,从而拓展了音频生成的应用场景,支持输入视频或文本,生成符合视频内容的音效。MMAudio 的设计使其能够在各种视听和音频文本数据集上进行训练。这种多模态联合训练的方式,不仅提高了合成音频的质量,还确保了生成的音频与视频帧之间的同步