Meta新框架VideoJAM:提升AI視頻模型的運動和物理能力
在視頻生成領域,儘管近年來取得了顯著的進展,但現有的生成模型仍然難以真實地捕捉到複雜的運動、動態和物理現象。這種侷限性主要源於傳統的像素重構目標,這種方法往往偏向於提高外觀的真實感,而忽視了運動的一致性。爲了解決這一問題,Meta 的研究團隊提出了一種名爲 VideoJAM 的新框架,它旨在通過鼓勵模型學習聯合外觀 - 運動表示,來爲視頻生成模型注入有效的運動先驗。VideoJAM 框架包含兩個互補的單元。在訓練階段,該框架擴展了目標,使其同時預測生成的像素和對應的