Tora est un modèle de génération de vidéo basé sur le transformateur de diffusion (DiT). Intégrant des conditions textuelles, visuelles et de trajectoire, il permet un contrôle précis et dynamique du contenu vidéo. La conception de Tora tire pleinement parti de l'extensibilité du DiT, permettant la génération de vidéos de haute qualité avec différentes durées, rapports hauteur/largeur et résolutions. Le modèle excelle en matière de fidélité du mouvement et de simulation du mouvement du monde physique, ouvrant de nouvelles possibilités pour la création de contenu vidéo.