ControlNet++ ist ein neuartiges Text-zu-Bild-Diffusionsmodell, das durch explizite Optimierung der pixelweisen zyklischen Konsistenz zwischen generiertem Bild und bedingungsgesteuerter Kontrolle die Steuerbarkeit unter verschiedenen Bedingungen deutlich verbessert. Es extrahiert die entsprechenden Bedingungen des generierten Bildes mithilfe eines vortrainierten diskriminativen Belohnungsmodells und optimiert den Konsistenzverlust zwischen der Eingabebedingungskontrolle und der extrahierten Bedingung. Darüber hinaus führt ControlNet++ eine effiziente Belohnungsstrategie ein, die durch Hinzufügen von Rauschen zu dem Eingangsbild das Bild stört und anschließend die einstufige Entrauschung des Bildes für die Belohnungsfeinabstimmung verwendet, wodurch die hohen Zeit- und Speicherkosten im Zusammenhang mit der Bildabtastung vermieden werden.