性能狂飆89%! 新加坡國立開源Conceptrol:讓個性化圖像生成更懂你的文字提示
文章鏈接:https://arxiv.org/pdf/2503.06568
代碼鏈接:https://github.com/QY-H00/Conceptrol
亮點直擊
- 發現了zero-shot adapters中的一個關鍵設計缺陷,表明忽略文本概念會導致參考圖像中的注意力分配錯誤。
- 發現基礎模型中的特定模塊可以提供文本概念掩碼,精確指示相應文本概念的空間位置。
- 提出了一種簡單但有效的方法,稱為Conceptrol。通過提取文本概念掩碼,并利用它來增加視覺規范在個性化目標正確區域的注意力分數,同時抑制對無關區域的注意力。
- 大量實驗表明,Conceptrol顯著改善了zero-shot個性化圖像生成的效果,甚至超越了微調方法,盡管其方法簡單且計算開銷可忽略不計。
效果先睹為快
總結速覽
解決的問題
- 個性化圖像生成中的平衡問題:現有的zero-shot adapters方法(如IP-Adapter和OminiControl)在生成個性化圖像時,難以平衡保留參考圖像內容和遵循文本提示的要求。生成的圖像往往只是復制個性化內容,而不是根據文本提示進行調整。
- 設計缺陷:現有的adapters在將個性化圖像與文本描述結合時存在設計缺陷,導致生成的圖像無法充分利用基礎文本到圖像擴散模型的概念理解能力。
提出的方案
- Conceptrol框架:提出了一個簡單但有效的框架Conceptrol,用于增強zero-shot adapters的性能,而無需增加計算開銷。
- 注意力機制優化:通過分析注意力機制,Conceptrol利用基礎擴散模型中的特定注意力塊來生成文本概念掩碼,并將其應用于參考圖像的注意力圖中,從而更好地結合個性化內容和文本提示。
應用的技術
- 注意力掩碼:利用基礎擴散模型中的特定注意力塊生成文本概念掩碼,并將其應用于參考圖像的注意力圖中,以約束視覺規范的注意力。
- 訓練免費方法:Conceptrol是一個即插即用的方法,無需重新訓練,直接在推理過程中應用,顯著提升了zero-shot adapters的性能。
達到的效果
- 性能提升:Conceptrol在個性化圖像生成基準測試中,相比原始的IP-Adapter,提升了高達89%的性能,甚至超過了微調方法如Dreambooth LoRA。
- 概念保留與提示遵循的平衡:Conceptrol更好地平衡了概念保留和提示遵循,生成的圖像既保留了參考圖像的內容,又更好地遵循了文本提示的指令。
- 廣泛適用性:Conceptrol不僅適用于基于UNet的擴散模型(如Stable Diffusion、SDXL),也適用于基于DiT的模型(如FLUX),展示了其廣泛的適用性和有效性。
方法
為什么將參考圖像視為全局條件是不理想的?
對于IP-Adapter和OminiControl,參考圖像被用作全局條件,基于以下兩個觀察:
將圖像和文本條件對稱處理會導致zero-shot個性化面臨兩個主要挑戰:
平衡提示遵循與概念保留:文本條件作為描述期望圖像的全局提示,而將圖像條件類似處理可能會導致沖突。如下圖3(第1行)所示,IP-Adapter中的低圖像條件強度(IP Scale)無法有效保留概念,而增加強度則會導致偏離文本提示并產生復制粘貼效果。這表明如果條件被對稱處理,平衡提示遵循與概念保留將變得困難。
獲取多樣化數據集的挑戰:即使使用相同主題但不同文本提示的數據對進行訓練(如OminiControl),文本和圖像條件之間的耦合仍然存在顯著挑戰。例如,當使用特定書籍的參考圖像生成“一座雕像正在讀書”時,系統可能會錯誤地優先考慮“雕像”而忽略“書籍”,如上圖3(第2行)所示。
不應將圖像和文本條件同等對待,而是將圖像條件作為特定文本概念的視覺規范。例如,在提示“一張雕像正在讀書的照片”中,圖像條件應僅應用于“書籍”的生成,而不是整個場景。否則,如圖3(第1行)所示,參考圖像可能會影響“雕像”的生成并導致偽影。
噪聲隱空間表示對文本和圖像條件的注意力指示了什么?
由于注意力塊是IP-Adapter 和 OminiControl 引入額外圖像條件的主要機制,本文研究了這些條件如何與噪聲隱空間表示交互并影響生成過程。先前的工作在完整生成后分析了注意力圖,但它們僅關注文本到圖像的生成。本文的分析在兩個方面有所不同:
- 分析注意力圖,以確定是否可以在生成過程中無需先驗知識識別感興趣區域。
- 研究了額外的參考圖像如何影響生成過程。
為了探索這些問題,本文首先通過將條件縮放設置為零來分析沒有參考圖像的生成過程,同時計算參考圖像的注意力圖。再使用LangSAM(一種基于SAM 的開源詞匯分割工具)來獲取定制目標的偽掩碼。下圖5中,(b) 顯示了LangSAM生成的掩碼,而 (c) 顯示了其中一個注意力圖。通過計算注意力圖與目標掩碼之間的AUC,我們定量評估注意力圖是否正確突出了目標的感興趣區域。
圖像條件的注意力分布未對齊:下圖4展示了一個這種差異的例子。在這個例子中,與文本“avocado”對應的注意力圖與生成結果中鱷梨(牛油果)的真實掩碼非常匹配,而圖像條件的注意力圖則集中在無關物體(如狗)上。定量來看,圖像條件注意力圖在所有塊中的最高AUC僅為0.38,而文本(如“avocado”)的AUC高達0.99。
視覺規范可以在高注意力分數區域內傳遞:IP-Adapter 可以通過手動應用注意力掩碼來傳遞視覺規范。進一步在FLUX中使用OminiControl驗證了這一點。具體來說,使用從僅文本條件生成的結果中分割出的感興趣區域掩碼,然后將其用于掩碼圖像條件生成以獲得另一個結果。接著,從新結果中再次分割,并與原始掩碼進行比較,發現基于UNet和DiT的模型的AUC均可高達0.99。這表明adapters可以在高注意力分數區域內傳遞參考圖像的外觀。
文本條件的概念特定注意力塊指示生成過程中的感興趣區域:與先前對注意力圖的事后分析不同,本文研究了它們在生成過程中的特性。對于通過交叉注意力或多模態注意力引入文本條件的架構,我們觀察到特定塊能夠清晰地突出感興趣區域,如圖5所示。為了量化這一點,比較了每個塊和時間步的注意力圖與通過LangSAM獲得的標注感興趣區域之間的AUC。如下圖6所示,來自概念特定塊的注意力圖強烈指示了感興趣區域。這些概念特定塊包括:Stable Diffusion 中的 UP BLOCK 1.0.0、SDXL 中的 UP BLOCK 0.1.3 以及 FLUX 中的 BLOCK 18。將這些特定塊的圖稱為文本概念掩碼,因為它們直接對應于像素空間中的文本概念。本文從分析中獲得的第三個見解是:這些特定塊可以始終提供在定制目標區域上具有高分的注意力圖。
Conceptrol:使用文本概念掩碼控制視覺規范
本文提出了一種簡單但有效的方法,稱為Conceptrol,用于持續提升zero-shot adapters的個性化能力。基于之前的見解,Conceptrol 使用文本概念掩碼來調整圖像條件的注意力圖,從而使個性化目標的區域獲得最高分數,使adapters能夠準確傳遞視覺規范。整體流程如下圖2所示。
Conceptrol 在 Direct Adding / IP-Adapter 中的應用
在推理過程中,可以通過使用圖像條件對注意力進行掩碼來修改IP-Adapter的交叉注意力。
MM-Attention / OminiControl 上的 Conceptrol
Conceptrol 預熱
實驗
評估設置
對比方法:為了評估本文方法的有效性,系統地將 Conceptrol 與其他最先進的方法進行比較,例如 Textual Inversion、DreamBooth、BLIP Diffusion 和 Emu2。為了展示 Conceptrol 在不同基礎模型上的適用性,將其與 IP-Adapter 結合應用于基于 UNet 的模型(包括 Stable Diffusion 1.5 和 SDXL),以及與基于 DiT 的模型 FLUX 上的 OminiControl 結合。
評估協議:本文遵循 DreamBench++ 中概述的評估協議,這是一個用于個性化圖像生成的綜合數據集。該基準使用視覺語言模型 GPT-4 系統地評估概念保留和提示跟隨的定制性能,展示了與其他基準相比更符合人類偏好的對齊效果。在正式評估中,個性化生成被表述為納什討價還價問題,目標是最大化納什效用,即概念保留和提示遵循的乘積。
人類研究:使用 Amazon Mechanical Turk (MTurk) 進行了人類研究,以驗證本文的方法是否符合人類偏好。具體來說,參與者被展示成對的圖像,并被要求選擇更好地保留原始概念并遵循提示的圖像。
主要結果
在下表 1 中展示了不同方法、基礎模型和各種個性化目標的主要結果。
充分發揮現有adapters的潛力:通過簡單的控制,可以大幅提升零樣本adapters在 Stable Diffusion 1.5、SDXL 和 FLUX 上的性能。值得注意的是,使用 Conceptrol 后,zero-shot adapters的性能甚至可以超越微調方法,例如 Dreambooth LoRA(在 Stable Diffusion 1.5 上為 0.397 > 0.359,在 SDXL 上為 0.524 > 0.517),這表明這些zero-shot adapters的潛力可以通過可忽略的計算開銷進一步發揮,如下圖 7 所示。
對人類偏好的帕累托改進:在下圖 12 中報告了人類研究結果。與使用 GPT-4 評估的結果相比,本文的方法在概念保留方面與原始 IP-Adapter 在 SD 和 SDXL 上表現相似,同時在提示遵循方面表現出顯著更好的效果。這一觀察結果與 DreambenchPlus 一致,后者報告稱,在 GPT-4 評估中,人類對齊在提示遵循方面高于概念保留。此外,在 FLUX 上使用 OminiControl 時,Conceptrol 能夠在保持提示遵循的同時提高概念保留。總體而言,人類研究結果表明,本文的方法可以被視為一種帕累托改進,即在提升提示遵循或概念保留的同時不犧牲另一方。
消融研究
本文系統地評估了方法中每個組件的影響,包括掩碼機制、條件比例和預熱比例對個性化得分的影響。
掩碼機制:為了評估文本概念掩碼的有效性,將其與三種替代設置進行比較:
- 非特定掩碼:注意力掩碼直接從每個塊中的文本概念單獨轉移,而不使用特定概念的注意力塊;
- 來自其他塊的掩碼,例如 DOWN.0.0.0;
- Oracle 掩碼:首先生成完全基于文本提示的圖像,然后使用 SAM 對主體進行分割以提取掩碼。
如下表 2 所示,文本概念掩碼優于非特定掩碼和從無信息注意力塊(如 DOWN.0.0.0)提取的掩碼。值得注意的是,在沒有額外計算開銷或依賴輔助模型的情況下,文本概念掩碼與 Oracle 掩碼具有競爭力,而后者需要雙倍的計算開銷和一個外部的大規模分割模型。
條件比例:條件比例定義了zero-shot adapters中概念保留和提示遵循之間的默認權衡。我們對原始 IP-Adapter 及其在 Conceptrol 下的變體進行了消融研究,如圖 9 (a) 所示。對于這兩種方法,增加條件比例會增強概念保留,但會降低提示遵循。值得注意的是,Conceptrol 實現了更好的權衡,在不同的條件比例值下保持了更高的乘積得分。
條件預熱比例:該比例是另一個重要的超參數,結果如下圖 9(b) 所示。隨著預熱比例的增加,提示遵循得分提高,而概念保留得分下降。然而,Conceptrol 在每種設置下都持續提高了乘積得分。我們將 Conceptrol 與 IP-Adapter 的預熱比例設置為 0.2,以增強提示遵循。對于 OmniControl,將預熱比例設置為 0.0。這主要是因為 FLUX 的文本概念掩碼比 Stable Diffusion 和 SDXL 收斂得更快。
結論
Conceptrol——一種簡單而有效的即插即用方法,顯著增強了zero-shot adapters在個性化圖像生成中的性能。本文的方法基于注意力分析中的三個關鍵觀察:
- 視覺規范的注意力通常與定制目標不一致;
- 視覺規范可以在高注意力區域內轉移;
- 可以從目標獲得高注意力的特定注意力塊中提取文本概念掩碼。通過使用文本概念掩碼轉移視覺規范,Conceptrol 在不增加計算、數據或模型的情況下實現了顯著的性能提升。研究結果強調了將文本概念集成到個性化圖像生成管道中的重要性,即使在使用更多數據和先進架構的情況下也是如此。
本文轉自AI生成未來 ,作者:AI生成未來
