MDT verbessert explizit die Fähigkeit von Diffusionswahrscheinlichkeitsmodellen (DPMs), die Beziehungen zwischen Objektteilen in Bildern zu lernen, indem es ein Schema für maskierte latente Modelle einführt. MDT operiert während des Trainings im latenten Raum, maskiert bestimmte Token und entwirft dann einen asymmetrischen Diffusions-Transformer, um die maskierten Token aus den unmaskierten Token vorherzusagen, während gleichzeitig der diffusionsbasierte Generierungsprozess beibehalten wird. MDTv2 steigert die Leistung von MDT durch eine effizientere Makro-Netzwerkarchitektur und Trainingsstrategien.