O CogView3 é um sistema de geração de imagem a partir de texto baseado em difusão em cascata, utilizando uma estrutura de difusão intermediária. O sistema decompõe o processo de geração de imagens de alta resolução em várias etapas, adicionando ruído gaussiano aos resultados de geração de baixa resolução por meio de um processo de super-resolução intermediário, e então inicia o processo de difusão a partir dessas imagens ruidosas. O CogView3 supera o SDXL na geração de imagens, apresentando velocidade de geração mais rápida e qualidade de imagem superior.