Tora es un modelo de generación de vídeo basado en el transformador de difusión (DiT), que logra un control preciso de la dinámica del contenido de vídeo mediante la integración de condiciones de texto, visuales y de trayectoria. El diseño de Tora aprovecha al máximo la escalabilidad de DiT, permitiendo la generación de contenido de vídeo de alta calidad con diferentes duraciones, relaciones de aspecto y resoluciones. El modelo destaca por su fidelidad de movimiento y su simulación del movimiento del mundo físico, ofreciendo nuevas posibilidades para la creación de contenido de vídeo.