CVPR2025|MCA-Ctrl:多方協同注意力控制助力AIGC時代圖像精準定制化
本文由中國科學院計算技術研究所研究團隊完成,第一作者為碩士生楊晗,通訊作者為副研究員安竹林,助理研究員楊傳廣。
- 論文標題:Multi-party Collaborative Attention Control for Image Customization
- 論文地址:https://arxiv.org/abs/2505.01428
- 論文代碼:https://github.com/yanghan-yh/MCA-Ctrl
背景
近年來,生成式人工智能(Generative AI)技術的突破性進展,特別是文本到圖像 T2I 生成模型的快速發展,已經使 AI 系統能夠根據用戶輸入的文本提示(prompt)生成高度逼真的圖像。從早期的 DALL?E 到 Stable Diffusion、Midjourney 等模型,這一領域的技術迭代呈現出加速發展的態勢。
在基礎 T2I 模型能力不斷提升的背景下,圖像定制化(Image Customization)需求日益凸顯。所謂圖像定制化,是指在對參考圖像中的主體(subject)保持身份特征和本質屬性的前提下,根據文本或視覺條件生成該主體的新表現形式。這一技術對于電子商務(如虛擬試衣)、數字內容創作(如個性化角色設計)、廣告營銷等應用場景具有重要價值。
當前,主流的圖像定制化方法主要沿著三個技術路線發展:基于反演優化(inversion-based)的方法、基于多模態編碼器(multimodal encoder-based)的方法,以及新興的基于注意力控制(attention control-based)的方法。
盡管這些方法在特定場景下都取得了一定成效,但通過系統的實驗評估和實際應用驗證,我們發現現有技術方案仍然面臨著若干關鍵性技術瓶頸。
1. 可控性不足:主流文本驅動方法難以精確控制背景、布局等元素。雖然 PhotoSwap 等新技術嘗試引入圖像條件,但仍局限于單一功能(替換或添加),無法實現統一控制。
2. 復雜視覺場景處理困難:面對多物體交互、遮擋等復雜場景時,常出現主體特征擴散問題,這源于模型在高響應區域生成的不準確性。
3. 背景融合不自然:在圖像條件控制下,生成結果與原始背景的融合往往不自然。
方法
本文提出了一種無需微調的通用圖像定制方法 — 多主體協同注意力控制 MCA-Ctrl,該方法利用擴散模型內部知識實現圖像定制。其核心創新在于將條件圖像 / 文本提示的語義信息與主體圖像內容相結合,實現對特定主體的新穎呈現。MCA-Ctrl 主要針對三類任務:主題替換、主題生成和主題添加。
本方法分為通過條件圖像和條件文本進行圖像定制化,如下圖(A)和(B)所示。具體而言,本方法首先引入主體定位模塊(Subject Location Module,SLM)對圖像進行精準定位,然后通過三個并行擴散過程中的自注意力注入與查詢機制,在保持條件信息語義空間布局的同時捕獲特定主體的視覺特征表示。
具體來說,MCA-Ctrl 在每個擴散步驟中,系統執行以下關鍵操作:
1)通過自注意力局部查詢(Self-Attention Local Query,SALQ)目標過程從主體和條件信息中檢索外觀與背景內容,如圖(C);
2)通過自注意力全局注入(Self-Attention Global Injection,SAGI)將主體和條件信息的注意力圖直接注入目標過程,如圖(D)。
1. 自注意力局部查詢
從任務視角看,我們的目標是從主體圖像提取外觀特征,并從條件中查詢背景內容與語義布局。受 MasaCtrl 啟發,我們利用自注意力層的鍵值特征表征圖像內容。如上圖(C)所示,目標過程通過查詢特征 Q 從主體和條件中檢索前景 / 背景內容,并使用主題、背景掩碼約束查詢區域。這種設計既能確保布局一致性,又能實現特定對象的外觀替換與背景對齊。
2. 自注意力全局注入
經過 SALQ 操作后,生成圖像常存在兩個問題:(1)細節真實性不足,和(2)特征輕微混淆。我們認為這是由于查詢過程本質上是原始特征與查詢特征的局部融合,難免導致特征交叉。為此,我們提出全局注意力混合注入機制來增強細節真實性與內容一致性。如上圖(D)所示,首先計算條件與主體圖像的完整注意力矩陣,再通過掩碼過濾獲得主體特征和背景特征,最后將其注入目標擴散過程。這種重構式特征替換直接增強了前景 / 背景細節表現,同時有效降低了特征混淆。
實驗
下圖展示了 MCA-Ctrl 的編輯和生成能力。前三行主要展示了主體編輯性能,包括主體替換、主體添加以及復雜視覺場景中的主體替換,充分證明了 MCA-Ctrl 在主體與背景定制方面的高度一致性和真實感表現。第四行重點呈現了 MCA-Ctrl 的零樣本定制生成能力,在物體、動物和人物等不同類別上均能實現高質量、高一致性且富有創意的再現效果。
表 1 展示了基于 DreamEditBench 的主題替換任務量化評估結果。相較于 BLIP-Diffusion、DreamBooth 和 PHOTOSWAP 等方法,MCA-Ctrl 在各項指標上均展現出相當或更優的性能表現。表 2 呈現了 DreamBench 上主題生成任務的評估結果。統一參數測試時,MCA-Ctrl 表現優于 Text Inversion、Re-Imagen 和 IP-Adapter,但略遜于 DreamBooth 和 BLIP-Diffusion。經過參數優化后,MCA-Ctrl 取得了與 BLIP-Diffusion 和 DreamBooth 相當的結果。此外,表 3 的人工評估結果表明,MCA-Ctrl 在主體對齊度和文本對齊度方面均表現突出。
我們在下圖中展示了對圖像生成的影響。實驗表明,在復雜場景下,若完全省略 SAGI 操作,會導致目標定位失敗和全局特征混淆等問題。隨著的逐步增加,主體特征會呈現越來越清晰的表現。但值得注意的是,當超過總去噪步驟的 60%(此為大多數案例的經驗閾值)后,繼續增加 SAGI 執行步數對圖像質量的提升效果將趨于飽和。具體而言,這一現象揭示了兩個重要發現:(1)在去噪過程的前期階段,SAGI 能有效建立主體與背景的語義關聯;(2)在去噪后期,過度的全局特征注入反而可能破壞已形成的細節特征。這種 “邊際效應遞減” 特性為算法參數優化提供了重要指導。
我們也在代碼倉庫中構建了圖像定制化的演示系統,如下所示,用戶可以方便地根據自身的需求使用本文提出的方法完成圖像定制化任務。
總結
綜上所述,該文章提出了一種無需訓練的圖像定制化生成方法 ——MCA-Ctrl。該模型通過三個并行擴散過程間的協同注意力控制,實現了高質量、高保真度的主體驅動編輯與生成。此外,MCA-Ctrl 通過引入主題定位模塊,有效解決了復雜視覺場景中的特征混淆問題。大量實驗結果表明,相較于大多數同期工作,MCA-Ctrl 在編輯和生成任務上表現更優。