谷歌与斯坦福的李飞飞团队携手推出了W.A.L.T视频生成模型,基于Transformer架构,取得了媲美Gen-2的逼真效果。该模型联合训练图像和视频,通过关键决策解决了建模难题,采用潜在视频扩散模型,标志着AI视频技术迎来新时代。