Meta新框架VideoJAM:提升AI视频模型的运动和物理能力
在视频生成领域,尽管近年来取得了显著的进展,但现有的生成模型仍然难以真实地捕捉到复杂的运动、动态和物理现象。这种局限性主要源于传统的像素重构目标,这种方法往往偏向于提高外观的真实感,而忽视了运动的一致性。为了解决这一问题,Meta 的研究团队提出了一种名为 VideoJAM 的新框架,它旨在通过鼓励模型学习联合外观 - 运动表示,来为视频生成模型注入有效的运动先验。VideoJAM 框架包含两个互补的单元。在训练阶段,该框架扩展了目标,使其同时预测生成的像素和对应的