AI画像生成分野において、拡散モデル(Diffusion Model)はUnetアーキテクチャベースからTransformerアーキテクチャベース(DiT)への移行期を迎えています。しかし、DiTエコシステムはプラグインサポート、効率性、多条件制御などの面で課題を抱えています。最近、Xiaojiu-z氏率いるチームがEasyControlという革新的なフレームワークを発表しました。これは、DiTモデルに効率的で柔軟な条件制御能力を提供することを目的としており、DiTモデルに強力な「ControlNet」を搭載するようなものです。
EasyControlの主要な利点
EasyControlは単なるモデルの積み重ねではなく、綿密に設計された統一的な条件付きDiTフレームワークです。その主要な利点は、軽量な条件注入LoRAモジュール(Condition Injection LoRA module)、位置認識トレーニングパラダイム(Position-Aware Training Paradigm)、そして因果的注意機構(Causal Attention)とKVキャッシュ(KV Cache)技術の組み合わせを導入することで、顕著な性能向上を実現している点にあります。これらの革新的な設計により、EasyControlはモデル互換性(プラグアンドプレイ、スタイル損失のない制御)、生成柔軟性(様々な解像度、アスペクト比、多条件組み合わせをサポート)、そして推論効率において優れた性能を発揮します。
強力な制御能力:CannyやOpenPoseだけではない
EasyControlの最も注目すべき特徴の1つは、その強力な多条件制御能力です。コードリポジトリからわかるように、EasyControlはCannyエッジ検出、深度情報、HEDエッジスケッチ、画像修復(Inpainting)、人体姿勢(Pose、OpenPoseに類似)、そしてセマンティックセグメンテーション(Seg)など、様々な制御モデルをサポートしています。
これは、ユーザーが様々な制御信号を入力することで、特定の構造、形状、レイアウトに沿った画像をDiTモデルで正確に生成できることを意味します。例えば、Canny制御を使用すると、生成物の輪郭を指定できます。姿勢制御を使用すると、特定の人物動作を持つ画像の生成を促すことができます。このような精密な制御能力は、DiTモデルの適用範囲を大幅に拡大します。
驚くべきジブリ風変換
基本的な構造制御に加えて、EasyControlは強力なスタイル転移能力、特にジブリ風変換においてその能力を発揮します。説明によると、研究チームはわずか100枚のリアルなアジア人の顔画像とGPT-4によって生成されたジブリ風の対応画像を使用してトレーニングを行い、専用のLoRAモデルを開発しました。驚くべきことに、このモデルは人物画像をクラシックなジブリアニメスタイルに変換しながら、元の顔の特徴を良好に保持します。ユーザーは自分の顔写真をアップロードし、適切なプロンプトを組み合わせることで、手描き風のアニメスタイルの芸術作品を簡単に生成できます。プロジェクトチームは、ユーザーがオンラインでこの機能を試せるGradioデモも提供しています。
EasyControlプロジェクトチームは現在、推論コードと事前学習済みウェイトを公開しています。ToDoリストによると、将来的には空間事前学習済みウェイト、主体事前学習済みウェイト、そしてトレーニングコードも公開される予定であり、これによりEasyControlの機能がさらに充実し、研究者や開発者により包括的なツールが提供されます。
EasyControlの登場は、Transformerベースの拡散モデルに強力な制御能力をもたらし、DiTモデルの条件制御における欠点を効果的に補っています。様々な制御モードのサポートと、印象的なジブリ風変換能力は、AIコンテンツ生成分野における広範な応用可能性を示唆しています。その効率性、柔軟性、使いやすさを備えたEasyControlは、DiTモデルエコシステムにおける重要な構成要素となることが期待されます。
プロジェクトページ:https://top.aibase.com/tool/easycontrol