Anything in Any Scene é uma estrutura universal para inserir objetos em vídeos dinâmicos existentes de forma perfeita, com foco no realismo físico. A estrutura abrange três processos-chave: 1) Combinar objetos reais com vídeos de cenas dadas, garantindo realismo geométrico; 2) Estimar a distribuição da iluminação ambiente e do céu, simulando sombras realistas e melhorando o realismo da iluminação; 3) Empregar uma rede de transferência de estilo para melhorar o realismo da saída final do vídeo. A estrutura pode gerar vídeos simulados com alta fidelidade geométrica, de iluminação e realismo.