像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景
文章鏈接:https://arxiv.org/pdf/2408.13858
亮點直擊
- 定義與標準:本文提供了一個明確的實驗性復雜場景定義,并引入了復雜性分解標準(CDC),以有效管理復雜提示。
- CxD框架:受藝術創作過程的啟發,本文提出了一種無需訓練的復雜擴散(CxD)框架,將復雜場景圖像的生成分為三個階段:構圖、繪畫和潤色。
- 驗證與性能:大量實驗表明,CxD能夠生成高質量、一致且多樣的復雜場景圖像,即使在處理復雜提示時也表現出色。
總結速覽
解決的問題
- 復雜場景的生成不足:盡管文本生成圖像的擴散模型在圖像質量上取得了顯著進展,但復雜場景的生成仍然相對未被充分探索。
- “復雜場景”定義不明確:關于“復雜場景”的具體定義尚不清晰,導致難以有效處理這類生成任務。
提出的方案
- 復雜場景的精確定義:首先對復雜場景進行了精確定義,明確了其構成和特點。
- 復雜分解標準(CDC)的引入:基于對復雜場景的定義,提出了一套復雜分解標準(Complex Decomposition Criteria,CDC),用于管理和處理復雜提示。
- 復雜擴散(CxD)框架:提出了一種無訓練需求的擴散框架——復雜擴散(Complex Diffusion,CxD),將生成過程分為三個階段:構圖、繪畫和潤色。
應用的技術
- 大語言模型(LLMs)的鏈式思維:利用LLMs的強大鏈式思維能力,根據CDC對復雜提示進行分解,管理構圖和布局。
- 注意力調制方法:開發了一種注意力調制方法,將簡單提示引導至特定區域,以完成復雜場景的繪畫。
- 潤色模型:將LLM的詳細輸出注入到潤色模型中,增強圖像細節,從而實現潤色階段。
達到的效果
- 生成高質量圖像:大量實驗表明,CxD在生成高質量、語義一致且視覺上多樣的復雜場景圖像方面表現優異。
- 顯著提升:即使面對復雜提示,CxD也表現出顯著的提升,優于先前的最先進方法(SOTA),在處理復雜場景的圖像生成任務中顯示出明顯的優勢。
方法:CxD
本節介紹了無訓練需求的框架CxD,該框架模擬了藝術家的繪畫過程,將復雜場景的生成分為三個階段:構圖、繪畫和潤色,如下圖3所示。首先,基于復雜場景提示,在大語言模型(LLMs)中使用鏈式思維(Chain-of-Thought,CoT)方法進行構圖。LLM提取實體和屬性,對實體進行重新措辭,合并它們,并根據復雜分解標準(CDC)劃分背景并分配布局。隨后,CxD在每個采樣步驟中計算并結合復雜和簡單的交叉注意力圖。最后,將LLM提取的屬性注入ControlNet tile中,以進行詳細潤色。
使用LLMs進行構圖與布局生成
實體提取
在接收到用戶提供的復雜場景y提示后,利用LLM的高級語言理解和推理能力,從提示中提取實體E及其對應的屬性A。這個過程可以描述如下:
提示的重新措辭
受RPG的啟發,該方法利用LLM對提示進行重新措辭并使用鏈式思維(CoT)來規劃區域劃分。研究者們同樣使用LLM基于提取的實體E及其對應的屬性A,將原始復雜提示重新措辭為子提示。設計這些子提示時,盡可能與原始復雜提示中的相關描述保持一致。此過程可以表示為:
提示的合并或拆分
在重新措辭后,子提示相比原始的復雜提示已經簡化了很多。然而,無法保證所有的子提示都足夠簡單,以便生成模型處理,因為其中一些可能仍然相對復雜。此外,有些子提示本身可能非常簡單,即使將它們組合在一起,整體提示對生成模型來說可能依然相對簡單。為確保圖像生成的質量和效率,我們使用LLM根據復雜分解標準(CDC)對子提示進行合并或拆分。合并或拆分的結果被記錄為簡單提示。
布局分配
最后,按布局面積大小的降序排列LLM分配的布局,并相應地調整簡單提示的順序。這種方法與藝術家優先關注主要對象的實踐一致,并有助于在圖像生成過程中避免較小的對象被較大的對象遮擋。
交叉注意力調制
如前文分析,擴散模型在處理包含超過四個概念的復雜場景時往往效果較差。為了解決這一挑戰,對交叉注意力進行調制,以適應LLM生成的構圖,從而有效處理復雜場景提示,如下圖4所示。
提示批處理
在調制結果后,根據邊界框的面積,將所有簡單提示的去噪潛變量結果進行拼接,以實現對位置關系的控制。未被邊界框覆蓋的區域則填充背景去噪潛變量的結果。將這個過程定義為:
其中, w是用于平衡復雜提示和簡單提示貢獻的權重。
為了應對復雜場景的挑戰,我們將復雜提示分解為更簡單的提示,以管理概念過載。LLM提供的邊界框幫助為每個簡單提示創建精確的潛變量表示,確保準確的位置控制。獨立生成每個潛變量可以最小化實體之間的沖突。總之,CxD有效地解決了與復雜場景相關的問題。
使用ControlNet-tile模型進行潤色
本文的方法有效地生成了符合復雜提示描述的圖像。然而,當實體和屬性的數量超出預訓練擴散模型的能力時,可能會丟失或模糊一些與復雜提示無關的局部細節。為了解決這一問題,使用潤色模型來精細化結果,類似于藝術家在畫作上進行的最后潤色。將LLM提取的實體和屬性作為細節提供給ControlNet 擴展——ControlNet-tile模型,該模型通過修正缺陷和添加新細節來增強圖像。應用ControlNet-tile后,圖像保持原有的語義,但在細節和紋理上獲得了更高的清晰度。因此,我們通過構圖、繪畫和潤色三個階段完成了復雜場景圖像的創建,這與藝術家的創作過程類似。
實驗
實驗設置
對于CxD框架,使用了開源的LLaMA-2 13B版本作為大語言模型(LLM),并使用了Stable Diffusion XL版本作為預訓練擴散模型。然而,CxD被設計為一個通用且可擴展的框架,能夠集成各種LLM架構。所有實驗均在NVIDIA RTX 3090 GPU上進行。使用CxD生成復雜場景圖像大約需要2分鐘,包括處理復雜提示所需的時間。我們精心設計了任務感知模板和高質量的上下文示例,以有效利用LLM的鏈式思維(CoT)能力。
質量評估
評估了CxD在各種復雜性指標下的表現,包括概念數量、空間位置和沖突關系。下圖1展示了SD XL模型和CxD的結果對比。頂部一行顯示,SD XL在處理包含五個實體和屬性的提示時,面臨著高復雜性的挑戰,包括空間定位的失真和不準確,同時也往往忽視實體之間的沖突。相比之下,CxD能夠有效管理高復雜度、精確的空間安排和沖突實體,生成了一致和諧、視覺上令人愉悅的圖像。
將CxD與之前的最先進文本到圖像模型進行比較,包括SDXL、LDM+ 、DALLE-3 和RPG。LDM+ 和 RPG 利用LLM進行構圖輔助。如下圖5所示,SDXL 和 LDM+ 在處理復雜提示時表現不佳,生成的圖像未能完全滿足提示要求。雖然 DALLE-3 和 RPG 能夠有效捕捉整體內容,但在復雜提示的局部細節上有時會有所遺漏(例如圖5中的紅色部分)。相比之下,CxD將復雜提示分解為簡單提示,確保沒有遺漏任何實體或屬性。因此,CxD 在管理整體語義和局部細節方面表現出色,顯示出其在處理復雜場景方面的有效性。
定量實驗
使用 T2I-Compbench 基準對 CxD 模型與之前的最先進文本到圖像模型進行了比較。如下表1所示,CxD 模型在通用文本到圖像生成和復雜生成任務中均優于所有其他模型,其中 RPG 排名第二。這突顯了該方法在處理復雜場景生成任務中的優越性。本文的模型在大多數任務中設立了新的最先進基準,特別是在對象關系和復雜場景方面表現突出,顯著優于第二名的方法。這一卓越表現歸功于我們提出的復雜分解標準(CDC)與這些任務的強對齊,展示了該方法在解決復雜場景生成問題中的優越性。
消融研究
對CxD框架的各個組件進行了評估:(a) 復雜提示潛變量,(b) 背景提示潛變量,(c) 注意力增強調制,和(d) 圖像潤色,如下圖6所示。第一列展示了沒有復雜提示潛變量的圖像,結果為不連貫和不一致的輸出。第二列缺少背景提示潛變量,顯示的背景不符合提示要求。第三列未進行注意力增強調制,結果是實體被遮擋。第四列缺少修改,生成的圖像由于實體過多而細節模糊。最后一列展示了CxD框架的輸出,保持了語義并增強了細節,突顯了CxD每個組件在生成復雜場景中的重要性。
結論
CxD,一種無訓練需求的擴散框架,旨在解決復雜場景生成的挑戰。本文精確定義了“復雜場景”,并提供了一套復雜分解標準(CDC),以幫助人類和大語言模型(LLMs)有效處理復雜場景提示。CxD框架將生成過程分為三個階段——構圖、繪畫和潤色——模擬傳統藝術家的繪畫方法。實驗結果表明,CxD 在生成復雜場景方面表現良好。未來的工作將集中在集成額外的模態數據作為輸入條件,以進一步增強可控性。
本文轉自 AI生成未來 ,作者:Minghao Liu等
