FIFO-Diffusion ist eine neuartige Inferenztechnik basierend auf vorab trainierten Diffusionsmodellen für die textbedingte Videogenerierung. Sie ermöglicht die Generierung von unbegrenzt langen Videos ohne Training durch iterative diagonale Rauschentfernung, wobei gleichzeitig der steigende Rauschpegel einer Reihe von aufeinanderfolgenden Frames in einer Warteschlange verarbeitet wird. Die Methode entfernt einen vollständig entrauschten Frame am Kopf der Warteschlange und fügt gleichzeitig einen neuen Frame mit zufälligem Rauschen am Ende hinzu. Zusätzlich wird eine latente Segmentierung eingeführt, um die Diskrepanz zwischen Training und Inferenz zu reduzieren, und eine vorausschauende Rauschentfernung, um die Vorteile von Vorwärtsreferenzen zu nutzen.