ControlNet++ est un nouveau modèle de diffusion texte-vers-image qui améliore considérablement la contrôlabilité sous diverses conditions en optimisant explicitement la cohérence cyclique au niveau des pixels entre l'image générée et les contrôles conditionnels. Il extrait les conditions correspondantes de l'image générée à l'aide d'un modèle de récompense discriminatoire pré-entraîné, puis optimise la perte de cohérence entre les contrôles conditionnels d'entrée et les conditions extraites. De plus, ControlNet++ introduit une stratégie de récompense efficace qui perturbe l'image en ajoutant du bruit à l'image d'entrée, puis utilise l'image débruitée à une seule étape pour l'ajustement fin de la récompense, évitant ainsi les coûts importants en temps et en mémoire liés à l'échantillonnage d'images.