Snap Videoは、ビデオを重視したモデルであり、EDMフレームワークを拡張することで、ビデオ生成分野におけるモーションの忠実度、視覚品質、拡張性といった課題を体系的に解決します。このモデルはフレーム間の冗長情報を活用し、スケーラブルなTransformerアーキテクチャを提案しています。空間と時間次元の両方を高度に圧縮された1次元潜在ベクトルとして表現することで、時空間の同時モデリングを効率的に行い、時間的な整合性が高く、複雑な動きを含むビデオを合成します。このアーキテクチャにより、モデルを効率的にトレーニングし、数十億パラメータ規模に到達することが可能になり、複数のベンチマークテストで最良の結果を得ています。