O RPG-DiffusionMaster é uma nova estrutura de geração/edição de imagem a partir de texto que não requer treinamento. Ele utiliza a capacidade de raciocínio em cadeia de modelos de linguagem multimodal (MLLM) para melhorar a capacidade de composição de modelos de difusão de texto para imagem. A estrutura emprega um MLLM como planejador global, decompondo o processo complexo de geração de imagens em tarefas de geração mais simples em várias sub-regiões. Também propõe a difusão regional complementar para alcançar a geração composta regionalizada. Além disso, a geração e edição de imagens guiadas por texto são integradas em loop fechado na estrutura RPG proposta, melhorando assim a capacidade de generalização. Vários experimentos demonstram que o RPG-DiffusionMaster supera modelos de difusão de texto para imagem de ponta, como DALL-E 3 e SDXL, em termos de composição de objetos multiclasse e alinhamento semântico texto-imagem. Em particular, a estrutura RPG apresenta ampla compatibilidade com várias arquiteturas de MLLM (como MiniGPT-4) e backbones de difusão (como ControlNet).