El MDT mejora explícitamente la capacidad de los modelos probabilísticos de difusión (DPM) para aprender las relaciones entre las partes de los objetos en una imagen mediante la introducción de un esquema de modelo latente enmascarado. El MDT opera en el espacio latente durante el entrenamiento, enmascarando ciertas marcas y luego diseñando un transformador de difusión asimétrico para predecir las marcas enmascaradas a partir de las marcas no enmascaradas, manteniendo al mismo tiempo el proceso de generación difusiva. MDTv2 mejora aún más el rendimiento del MDT mediante una estructura de macro-red y estrategias de entrenamiento más eficientes.