ControlNet++は、生成画像と条件制御間のピクセルレベルの循環整合性を明示的に最適化することで、様々な条件制御下での制御性を大幅に向上させた、新しいタイプのテキスト・トゥ・イメージ拡散モデルです。事前に学習された識別的報酬モデルを用いて生成画像に対応する条件を抽出し、入力条件制御と抽出条件間の整合性損失を最適化します。さらに、ControlNet++は、入力画像にノイズを追加して画像を摂動し、その後、1ステップノイズ除去画像を用いて報酬微調整を行う効率的な報酬戦略を導入することで、画像サンプリングに関連する膨大な時間とメモリコストを回避します。