ControlNet++ é um novo modelo de difusão texto-para-imagem que melhora significativamente o controle em diversas condições, otimizando explicitamente a consistência cíclica de nível de pixel entre a imagem gerada e o controle condicional. Ele extrai as condições correspondentes da imagem gerada usando um modelo de recompensa discriminativo pré-treinado e otimiza a perda de consistência entre o controle condicional de entrada e a condição extraída. Além disso, o ControlNet++ introduz uma estratégia de recompensa eficiente, perturbando a imagem adicionando ruído e, em seguida, usando uma imagem desruidificada de etapa única para o ajuste fino da recompensa, evitando altos custos de tempo e memória associados à amostragem de imagem.