GameNGen es un motor de juego totalmente impulsado por modelos neuronales, capaz de interactuar en tiempo real con entornos complejos y mantener una alta calidad en trayectorias largas. Puede simular interactivamente el juego clásico DOOM a más de 20 fotogramas por segundo, y su predicción del siguiente fotograma alcanza una PSNR de 29.4, comparable a la compresión JPEG con pérdida. Los evaluadores humanos apenas superan la casualidad al distinguir entre fragmentos de juego reales y simulados. GameNGen se entrena en dos etapas: (1) un agente RL aprende a jugar y registra las acciones y observaciones de las sesiones de entrenamiento, proporcionando datos para el modelo generativo; (2) se entrena un modelo de difusión para predecir el siguiente fotograma, condicionado a la secuencia pasada de acciones y observaciones. El refuerzo condicional permite una generación autoregresiva estable en trayectorias largas.