字节和中国科大出品!VMix:提升扩散模型美学的扩展,即插即用
在文本生成图像的领域,扩散模型展现出了非凡的能力,但在美学图像生成方面仍存在一定的不足。最近,来自字节跳动和中国科学技术大学的研究团队提出了一种名为 “Cross-Attention Value Mixing Control”(VMix)适配器的新技术,旨在提升生成图像的质量,并保持对各种视觉概念的通用性。VMix 适配器的核心思想在于,通过设计优越的条件控制方法,增强现有扩散模型的美学表现,同时确保图像与文本之间的对齐。该适配器主要通过两个步骤实现其目标:首先,它通过初始化美学嵌入,将输入