ControlNet++ es un nuevo modelo de difusión de texto a imagen que, mediante la optimización explícita de la coherencia cíclica a nivel de píxeles entre la imagen generada y el control condicional, mejora significativamente el control bajo diversas condiciones. Extrae las condiciones correspondientes de la imagen generada utilizando un modelo de recompensa discriminativo preentrenado y optimiza la pérdida de coherencia entre el control condicional de entrada y las condiciones extraídas. Además, ControlNet++ introduce una estrategia de recompensa eficiente que perturba la imagen añadiendo ruido a la imagen de entrada y luego utiliza una imagen de eliminación de ruido de un solo paso para el ajuste fino de la recompensa, evitando los elevados costes de tiempo y memoria asociados al muestreo de imágenes.