CausVid est un modèle de génération vidéo avancé. Il réalise la génération instantanée d'images vidéo grâce à l'adaptation d'un transformateur de diffusion bidirectionnel pré-entraîné en un transformateur causal. L'importance de cette technologie réside dans sa capacité à réduire significativement le délai de génération vidéo, permettant une génération en streaming à une cadence interactive (9,4 FPS) sur un seul GPU. CausVid prend en charge la génération de texte à vidéo et la génération zéro-shot d'image à vidéo, démontrant ainsi un nouveau niveau d'excellence en matière de génération vidéo.