FIFO-Diffusion é uma nova técnica de inferência baseada em modelos de difusão pré-treinados, usada para geração de vídeo condicionada a texto. Ela é capaz de gerar vídeos infinitamente longos sem treinamento, através da execução iterativa de desruído diagonal, processando simultaneamente níveis crescentes de ruído em uma sequência de quadros consecutivos em uma fila; o método retira um quadro completamente desruído da cabeça da fila e adiciona um novo quadro de ruído aleatório na cauda. Além disso, a segmentação latente é introduzida para reduzir a diferença entre treinamento e inferência, e o desruído prospectivo é usado para aproveitar os benefícios da referência para frente.