12月19日,谷歌发布了视频生成模型VideoPoet。该模型可以生成时长达10秒的视频,同时还可以根据视频内容自动生成配乐音效。VideoPoet通过重复预测视频最后一帧的下一帧内容来延长视频,让用户感觉视频可以无限延长。与其他模型不同的是,VideoPoet使用的是大语言模型而非扩散模型,因此将文本到视频、视频修复、视频风格化等多种功能集成到同一个模型中,使用更加灵活。