像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景

angel

發布于 2024-8-28 09:23

瀏覽

0收藏

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

文章鏈接：https://arxiv.org/pdf/2408.13858

亮點直擊

定義與標準：本文提供了一個明確的實驗性復雜場景定義，并引入了復雜性分解標準（CDC），以有效管理復雜提示。
CxD框架：受藝術創作過程的啟發，本文提出了一種無需訓練的復雜擴散（CxD）框架，將復雜場景圖像的生成分為三個階段：構圖、繪畫和潤色。
驗證與性能：大量實驗表明，CxD能夠生成高質量、一致且多樣的復雜場景圖像，即使在處理復雜提示時也表現出色。

總結速覽

解決的問題

復雜場景的生成不足：盡管文本生成圖像的擴散模型在圖像質量上取得了顯著進展，但復雜場景的生成仍然相對未被充分探索。
“復雜場景”定義不明確：關于“復雜場景”的具體定義尚不清晰，導致難以有效處理這類生成任務。

提出的方案

復雜場景的精確定義：首先對復雜場景進行了精確定義，明確了其構成和特點。
復雜分解標準（CDC）的引入：基于對復雜場景的定義，提出了一套復雜分解標準（Complex Decomposition Criteria，CDC），用于管理和處理復雜提示。
復雜擴散（CxD）框架：提出了一種無訓練需求的擴散框架——復雜擴散（Complex Diffusion，CxD），將生成過程分為三個階段：構圖、繪畫和潤色。

應用的技術

大語言模型（LLMs）的鏈式思維：利用LLMs的強大鏈式思維能力，根據CDC對復雜提示進行分解，管理構圖和布局。
注意力調制方法：開發了一種注意力調制方法，將簡單提示引導至特定區域，以完成復雜場景的繪畫。
潤色模型：將LLM的詳細輸出注入到潤色模型中，增強圖像細節，從而實現潤色階段。

達到的效果

生成高質量圖像：大量實驗表明，CxD在生成高質量、語義一致且視覺上多樣的復雜場景圖像方面表現優異。
顯著提升：即使面對復雜提示，CxD也表現出顯著的提升，優于先前的最先進方法（SOTA），在處理復雜場景的圖像生成任務中顯示出明顯的優勢。

方法：CxD

本節介紹了無訓練需求的框架CxD，該框架模擬了藝術家的繪畫過程，將復雜場景的生成分為三個階段：構圖、繪畫和潤色，如下圖3所示。首先，基于復雜場景提示，在大語言模型（LLMs）中使用鏈式思維（Chain-of-Thought，CoT）方法進行構圖。LLM提取實體和屬性，對實體進行重新措辭，合并它們，并根據復雜分解標準（CDC）劃分背景并分配布局。隨后，CxD在每個采樣步驟中計算并結合復雜和簡單的交叉注意力圖。最后，將LLM提取的屬性注入ControlNet tile中，以進行詳細潤色。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

使用LLMs進行構圖與布局生成

實體提取

在接收到用戶提供的復雜場景y提示后，利用LLM的高級語言理解和推理能力，從提示中提取實體E及其對應的屬性A。這個過程可以描述如下：

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示的重新措辭
受RPG的啟發，該方法利用LLM對提示進行重新措辭并使用鏈式思維（CoT）來規劃區域劃分。研究者們同樣使用LLM基于提取的實體E及其對應的屬性A，將原始復雜提示重新措辭為子提示。設計這些子提示時，盡可能與原始復雜提示中的相關描述保持一致。此過程可以表示為：

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示的合并或拆分

在重新措辭后，子提示相比原始的復雜提示已經簡化了很多。然而，無法保證所有的子提示都足夠簡單，以便生成模型處理，因為其中一些可能仍然相對復雜。此外，有些子提示本身可能非常簡單，即使將它們組合在一起，整體提示對生成模型來說可能依然相對簡單。為確保圖像生成的質量和效率，我們使用LLM根據復雜分解標準（CDC）對子提示進行合并或拆分。合并或拆分的結果被記錄為簡單提示。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

布局分配

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

最后，按布局面積大小的降序排列LLM分配的布局，并相應地調整簡單提示的順序。這種方法與藝術家優先關注主要對象的實踐一致，并有助于在圖像生成過程中避免較小的對象被較大的對象遮擋。

交叉注意力調制

如前文分析，擴散模型在處理包含超過四個概念的復雜場景時往往效果較差。為了解決這一挑戰，對交叉注意力進行調制，以適應LLM生成的構圖，從而有效處理復雜場景提示，如下圖4所示。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示批處理

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

在調制結果后，根據邊界框的面積，將所有簡單提示的去噪潛變量結果進行拼接，以實現對位置關系的控制。未被邊界框覆蓋的區域則填充背景去噪潛變量的結果。將這個過程定義為：

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

其中， w是用于平衡復雜提示和簡單提示貢獻的權重。

為了應對復雜場景的挑戰，我們將復雜提示分解為更簡單的提示，以管理概念過載。LLM提供的邊界框幫助為每個簡單提示創建精確的潛變量表示，確保準確的位置控制。獨立生成每個潛變量可以最小化實體之間的沖突。總之，CxD有效地解決了與復雜場景相關的問題。

使用ControlNet-tile模型進行潤色

本文的方法有效地生成了符合復雜提示描述的圖像。然而，當實體和屬性的數量超出預訓練擴散模型的能力時，可能會丟失或模糊一些與復雜提示無關的局部細節。為了解決這一問題，使用潤色模型來精細化結果，類似于藝術家在畫作上進行的最后潤色。將LLM提取的實體和屬性作為細節提供給ControlNet 擴展——ControlNet-tile模型，該模型通過修正缺陷和添加新細節來增強圖像。應用ControlNet-tile后，圖像保持原有的語義，但在細節和紋理上獲得了更高的清晰度。因此，我們通過構圖、繪畫和潤色三個階段完成了復雜場景圖像的創建，這與藝術家的創作過程類似。

實驗

實驗設置

對于CxD框架，使用了開源的LLaMA-2 13B版本作為大語言模型（LLM），并使用了Stable Diffusion XL版本作為預訓練擴散模型。然而，CxD被設計為一個通用且可擴展的框架，能夠集成各種LLM架構。所有實驗均在NVIDIA RTX 3090 GPU上進行。使用CxD生成復雜場景圖像大約需要2分鐘，包括處理復雜提示所需的時間。我們精心設計了任務感知模板和高質量的上下文示例，以有效利用LLM的鏈式思維（CoT）能力。

質量評估

評估了CxD在各種復雜性指標下的表現，包括概念數量、空間位置和沖突關系。下圖1展示了SD XL模型和CxD的結果對比。頂部一行顯示，SD XL在處理包含五個實體和屬性的提示時，面臨著高復雜性的挑戰，包括空間定位的失真和不準確，同時也往往忽視實體之間的沖突。相比之下，CxD能夠有效管理高復雜度、精確的空間安排和沖突實體，生成了一致和諧、視覺上令人愉悅的圖像。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

將CxD與之前的最先進文本到圖像模型進行比較，包括SDXL、LDM+ 、DALLE-3 和RPG。LDM+ 和 RPG 利用LLM進行構圖輔助。如下圖5所示，SDXL 和 LDM+ 在處理復雜提示時表現不佳，生成的圖像未能完全滿足提示要求。雖然 DALLE-3 和 RPG 能夠有效捕捉整體內容，但在復雜提示的局部細節上有時會有所遺漏（例如圖5中的紅色部分）。相比之下，CxD將復雜提示分解為簡單提示，確保沒有遺漏任何實體或屬性。因此，CxD 在管理整體語義和局部細節方面表現出色，顯示出其在處理復雜場景方面的有效性。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

定量實驗

使用 T2I-Compbench 基準對 CxD 模型與之前的最先進文本到圖像模型進行了比較。如下表1所示，CxD 模型在通用文本到圖像生成和復雜生成任務中均優于所有其他模型，其中 RPG 排名第二。這突顯了該方法在處理復雜場景生成任務中的優越性。本文的模型在大多數任務中設立了新的最先進基準，特別是在對象關系和復雜場景方面表現突出，顯著優于第二名的方法。這一卓越表現歸功于我們提出的復雜分解標準（CDC）與這些任務的強對齊，展示了該方法在解決復雜場景生成問題中的優越性。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

消融研究

對CxD框架的各個組件進行了評估：(a) 復雜提示潛變量，(b) 背景提示潛變量，(c) 注意力增強調制，和(d) 圖像潤色，如下圖6所示。第一列展示了沒有復雜提示潛變量的圖像，結果為不連貫和不一致的輸出。第二列缺少背景提示潛變量，顯示的背景不符合提示要求。第三列未進行注意力增強調制，結果是實體被遮擋。第四列缺少修改，生成的圖像由于實體過多而細節模糊。最后一列展示了CxD框架的輸出，保持了語義并增強了細節，突顯了CxD每個組件在生成復雜場景中的重要性。

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

結論

CxD，一種無訓練需求的擴散框架，旨在解決復雜場景生成的挑戰。本文精確定義了“復雜場景”，并提供了一套復雜分解標準（CDC），以幫助人類和大語言模型（LLMs）有效處理復雜場景提示。CxD框架將生成過程分為三個階段——構圖、繪畫和潤色——模擬傳統藝術家的繪畫方法。實驗結果表明，CxD 在生成復雜場景方面表現良好。未來的工作將集中在集成額外的模態數據作為輸入條件，以進一步增強可控性。

本文轉自 AI生成未來，作者：Minghao Liu等

原文鏈接:??https://mp.weixin.qq.com/s/CFL1QH4Lt222PLqKE7Gvyw??

標簽

場景生成

模型

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

像藝術家一樣畫畫：通過構圖、繪畫和潤色用擴散模型生成復雜場景

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

方法：CxD

使用LLMs進行構圖與布局生成

實體提取

交叉注意力調制

使用ControlNet-tile模型進行潤色

實驗

實驗設置

質量評估

定量實驗

消融研究

結論

目錄