Snap Video es un modelo prioritario para vídeo que aborda sistemáticamente los desafíos de fidelidad de movimiento, calidad visual y escalabilidad en el dominio de la generación de vídeo mediante la extensión del marco EDM. El modelo aprovecha la información redundante entre fotogramas y propone una arquitectura de transformador escalable que representa las dimensiones espacial y temporal como un vector latente 1D altamente comprimido, permitiendo así un modelado espacio-temporal conjunto eficiente y la síntesis de vídeos con alta coherencia temporal y movimientos complejos. Esta arquitectura permite el entrenamiento eficiente de modelos a escala de miles de millones de parámetros, obteniendo resultados óptimos en varias pruebas de referencia.