O MDT aprimora explicitamente a capacidade dos modelos probabilísticos de difusão (DPMs) de aprender as relações entre partes de objetos em imagens, introduzindo um esquema de modelo latente mascarado. O MDT opera no espaço latente durante o treinamento, mascarando alguns tokens e, em seguida, projetando um transformador de difusão assimétrico para prever os tokens mascarados a partir dos tokens não mascarados, mantendo simultaneamente o processo de geração de difusão. O MDTv2 melhora ainda mais o desempenho do MDT por meio de uma estrutura de macro-rede e estratégias de treinamento mais eficientes.