字節和中國科大出品!VMix:提升擴散模型美學的擴展,即插即用
在文本生成圖像的領域,擴散模型展現出了非凡的能力,但在美學圖像生成方面仍存在一定的不足。最近,來自字節跳動和中國科學技術大學的研究團隊提出了一種名爲 “Cross-Attention Value Mixing Control”(VMix)適配器的新技術,旨在提升生成圖像的質量,並保持對各種視覺概念的通用性。VMix 適配器的核心思想在於,通過設計優越的條件控制方法,增強現有擴散模型的美學表現,同時確保圖像與文本之間的對齊。該適配器主要通過兩個步驟實現其目標:首先,它通過初始化美學嵌入,將輸入