O IP-Adapter é um adaptador leve que permite a funcionalidade de prompt de imagem para modelos de difusão de texto para imagem pré-treinados. Seu design principal é um mecanismo de atenção cruzada desacoplado, que separa as camadas de atenção cruzada entre recursos de texto e imagem. O IP-Adapter não apenas é compatível com ferramentas controláveis existentes, mas também permite a geração de imagens multimodais com prompts de texto. Em comparação com outros métodos existentes, o IP-Adapter não apenas apresenta melhor desempenho na qualidade da imagem, mas também pode gerar imagens mais alinhadas com prompts multimodais.