巨人ネットワークAIラボと清华大学、西北工業大学が共同で3つの音声・映像マルチモーダル生成技術を発表しました。YingVideo-MV(音楽駆動による動画生成)、YingMusic-SVC(ゼロショット歌声変換)およびYingMusic-Singer(歌声生成)。これらの技術はオープンソースとなり、YingVideo-MVでは音楽と人物画像だけで動画を生成できます。