Sora é um modelo de difusão de geração de vídeo controlado por texto, treinado em larga escala. Ele consegue gerar vídeos de alta definição com duração de até 1 minuto, abrangendo uma ampla variedade de tipos de dados visuais e resoluções. Por meio do treinamento em um espaço latente comprimido de vídeos e imagens, decomposto em patches de localização espaço-temporal, o Sora alcança geração de vídeo escalonável. Sora também demonstra capacidades de simulação de mundos físicos e digitais, como consistência e interação tridimensionais, revelando o potencial de expandir ainda mais a escala dos modelos de geração de vídeo para desenvolver simuladores de alta capacidade.