O Google, em colaboração com a equipe de Fei-Fei Li da Stanford, lançou o modelo de geração de vídeo W.A.L.T., baseado na arquitetura Transformer, alcançando resultados de realismo comparáveis ao Gen-2. O modelo treina imagens e vídeos conjuntamente, resolvendo desafios de modelagem por meio de decisões-chave. Utilizando um modelo de difusão de vídeo latente, ele marca uma nova era na tecnologia de vídeo com IA.