En el campo de la pintura con inteligencia artificial, los modelos de difusión (Diffusion Model) están experimentando una transición de arquitecturas basadas en Unet a arquitecturas basadas en Transformer (DiT). Sin embargo, el ecosistema DiT aún enfrenta desafíos en cuanto a compatibilidad con plugins, eficiencia y control multicondicional. Recientemente, un equipo liderado por Xiaojiu-z presentó un marco innovador llamado EasyControl, diseñado para proporcionar a los modelos DiT una capacidad de control condicional eficiente y flexible, como si se les hubiera instalado un potente "ControlNet".

QQ_1744004917053.png

Ventajas principales de EasyControl

EasyControl no es una simple superposición de modelos, sino un marco DiT condicional unificado cuidadosamente diseñado. Sus ventajas principales radican en la introducción de un módulo LoRA de inyección de condiciones ligero (Condition Injection LoRA module), un paradigma de entrenamiento con conciencia posicional (Position-Aware Training Paradigm) y la combinación de mecanismos de atención causal (Causal Attention) con la tecnología de caché KV (KV Cache), lo que permite una mejora significativa del rendimiento. Estos diseños innovadores hacen que EasyControl destaque en compatibilidad de modelos (plug-and-play, control sin pérdida de estilo), flexibilidad de generación (admite múltiples resoluciones, relaciones de aspecto y combinaciones de múltiples condiciones) y eficiencia de inferencia.

Potente capacidad de control: más allá de Canny y OpenPose

Una de las características más notables de EasyControl es su potente capacidad de control multicondicional. Su repositorio de código muestra que EasyControl admite varios modelos de control, incluyendo, entre otros, la detección de bordes Canny, la información de profundidad, los esbozos de bordes HED, la reparación de imágenes (Inpainting), la postura humana (Pose, comparable a OpenPose) y la segmentación semántica (Seg).

Esto significa que los usuarios pueden utilizar diferentes señales de control para guiar con precisión el modelo DiT para generar imágenes que cumplan con una estructura, forma y diseño específicos. Por ejemplo, mediante el control Canny, el usuario puede especificar el contorno del objeto que se va a generar; mediante el control de postura, se puede guiar la generación de imágenes con acciones de personajes específicas. Esta capacidad de control precisa amplía enormemente las aplicaciones del modelo DiT.

Impresionante conversión al estilo Ghibli

Además del control estructural básico, EasyControl también muestra una potente capacidad de transferencia de estilo, especialmente en la conversión al estilo Ghibli. Según la información proporcionada, el equipo de investigación utilizó solo 100 imágenes reales de rostros asiáticos y imágenes correspondientes en estilo Ghibli generadas por GPT-4 para entrenar un modelo LoRA específico. Sorprendentemente, este modelo, al convertir retratos en el clásico estilo de animación Ghibli, también conserva bien las características faciales originales. Los usuarios pueden subir fotos de retratos y, junto con las indicaciones correspondientes, generar fácilmente obras de arte con un fuerte estilo de cómic dibujado a mano. El equipo del proyecto también proporciona una demostración de Gradio para que los usuarios puedan probar esta función en línea.

El equipo del proyecto EasyControl ya ha publicado el código de inferencia y los pesos preentrenados. Según su lista de tareas pendientes (Todo List), en el futuro también lanzarán pesos preentrenados espaciales, pesos preentrenados de sujetos y código de entrenamiento, lo que mejorará aún más las funciones de EasyControl y proporcionará herramientas más completas para investigadores y desarrolladores.

La aparición de EasyControl sin duda ha inyectado una potente capacidad de control en los modelos de difusión basados en Transformer, compensando eficazmente las deficiencias de los modelos DiT en el control condicional. Su compatibilidad con múltiples modos de control y su impresionante capacidad de conversión al estilo Ghibli auguran un amplio abanico de aplicaciones en el campo de la generación de contenido de IA. Gracias a sus características eficientes, flexibles y fáciles de usar, EasyControl tiene el potencial de convertirse en un componente importante del ecosistema de modelos DiT.

Enlace al proyecto: https://top.aibase.com/tool/easycontrol