Le MDT améliore explicitement la capacité des modèles probabilistes de diffusion (DPM) à apprendre les relations entre les parties d'objets dans une image en introduisant un schéma de modèle latent masqué. Le MDT opère dans l'espace latent pendant l'entraînement, masque certains jetons, puis conçoit un transformateur de diffusion asymétrique pour prédire les jetons masqués à partir des jetons non masqués, tout en préservant le processus de génération de diffusion. MDTv2 améliore encore les performances du MDT grâce à une architecture de macro-réseau et à des stratégies d'entraînement plus efficaces.