成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景

發布于 2024-8-28 09:23
瀏覽
0收藏

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

文章鏈接:https://arxiv.org/pdf/2408.13858

亮點直擊

  • 定義與標準:本文提供了一個明確的實驗性復雜場景定義,并引入了復雜性分解標準(CDC),以有效管理復雜提示。
  • CxD框架:受藝術創作過程的啟發,本文提出了一種無需訓練的復雜擴散(CxD)框架,將復雜場景圖像的生成分為三個階段:構圖、繪畫和潤色。
  • 驗證與性能:大量實驗表明,CxD能夠生成高質量、一致且多樣的復雜場景圖像,即使在處理復雜提示時也表現出色。

總結速覽

解決的問題

  • 復雜場景的生成不足:盡管文本生成圖像的擴散模型在圖像質量上取得了顯著進展,但復雜場景的生成仍然相對未被充分探索。
  • “復雜場景”定義不明確:關于“復雜場景”的具體定義尚不清晰,導致難以有效處理這類生成任務。

提出的方案

  • 復雜場景的精確定義:首先對復雜場景進行了精確定義,明確了其構成和特點。
  • 復雜分解標準(CDC)的引入:基于對復雜場景的定義,提出了一套復雜分解標準(Complex Decomposition Criteria,CDC),用于管理和處理復雜提示。
  • 復雜擴散(CxD)框架:提出了一種無訓練需求的擴散框架——復雜擴散(Complex Diffusion,CxD),將生成過程分為三個階段:構圖、繪畫和潤色。

應用的技術

  • 大語言模型(LLMs)的鏈式思維:利用LLMs的強大鏈式思維能力,根據CDC對復雜提示進行分解,管理構圖和布局。
  • 注意力調制方法:開發了一種注意力調制方法,將簡單提示引導至特定區域,以完成復雜場景的繪畫。
  • 潤色模型:將LLM的詳細輸出注入到潤色模型中,增強圖像細節,從而實現潤色階段。

達到的效果

  • 生成高質量圖像:大量實驗表明,CxD在生成高質量、語義一致且視覺上多樣的復雜場景圖像方面表現優異。
  • 顯著提升:即使面對復雜提示,CxD也表現出顯著的提升,優于先前的最先進方法(SOTA),在處理復雜場景的圖像生成任務中顯示出明顯的優勢。

方法:CxD

本節介紹了無訓練需求的框架CxD,該框架模擬了藝術家的繪畫過程,將復雜場景的生成分為三個階段:構圖、繪畫和潤色,如下圖3所示。首先,基于復雜場景提示,在大語言模型(LLMs)中使用鏈式思維(Chain-of-Thought,CoT)方法進行構圖。LLM提取實體和屬性,對實體進行重新措辭,合并它們,并根據復雜分解標準(CDC)劃分背景并分配布局。隨后,CxD在每個采樣步驟中計算并結合復雜和簡單的交叉注意力圖。最后,將LLM提取的屬性注入ControlNet tile中,以進行詳細潤色。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

使用LLMs進行構圖與布局生成

實體提取

在接收到用戶提供的復雜場景y提示后,利用LLM的高級語言理解和推理能力,從提示中提取實體E及其對應的屬性A。這個過程可以描述如下:

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示的重新措辭
受RPG的啟發,該方法利用LLM對提示進行重新措辭并使用鏈式思維(CoT)來規劃區域劃分。研究者們同樣使用LLM基于提取的實體E及其對應的屬性A,將原始復雜提示重新措辭為子提示。設計這些子提示時,盡可能與原始復雜提示中的相關描述保持一致。此過程可以表示為:

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示的合并或拆分

在重新措辭后,子提示相比原始的復雜提示已經簡化了很多。然而,無法保證所有的子提示都足夠簡單,以便生成模型處理,因為其中一些可能仍然相對復雜。此外,有些子提示本身可能非常簡單,即使將它們組合在一起,整體提示對生成模型來說可能依然相對簡單。為確保圖像生成的質量和效率,我們使用LLM根據復雜分解標準(CDC)對子提示進行合并或拆分。合并或拆分的結果被記錄為簡單提示。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

布局分配

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

最后,按布局面積大小的降序排列LLM分配的布局,并相應地調整簡單提示的順序。這種方法與藝術家優先關注主要對象的實踐一致,并有助于在圖像生成過程中避免較小的對象被較大的對象遮擋。

交叉注意力調制

如前文分析,擴散模型在處理包含超過四個概念的復雜場景時往往效果較差。為了解決這一挑戰,對交叉注意力進行調制,以適應LLM生成的構圖,從而有效處理復雜場景提示,如下圖4所示。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

提示批處理

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

在調制結果后,根據邊界框的面積,將所有簡單提示的去噪潛變量結果進行拼接,以實現對位置關系的控制。未被邊界框覆蓋的區域則填充背景去噪潛變量的結果。將這個過程定義為:

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

其中, w是用于平衡復雜提示和簡單提示貢獻的權重。


為了應對復雜場景的挑戰,我們將復雜提示分解為更簡單的提示,以管理概念過載。LLM提供的邊界框幫助為每個簡單提示創建精確的潛變量表示,確保準確的位置控制。獨立生成每個潛變量可以最小化實體之間的沖突。總之,CxD有效地解決了與復雜場景相關的問題。

使用ControlNet-tile模型進行潤色

本文的方法有效地生成了符合復雜提示描述的圖像。然而,當實體和屬性的數量超出預訓練擴散模型的能力時,可能會丟失或模糊一些與復雜提示無關的局部細節。為了解決這一問題,使用潤色模型來精細化結果,類似于藝術家在畫作上進行的最后潤色。將LLM提取的實體和屬性作為細節提供給ControlNet 擴展——ControlNet-tile模型,該模型通過修正缺陷和添加新細節來增強圖像。應用ControlNet-tile后,圖像保持原有的語義,但在細節和紋理上獲得了更高的清晰度。因此,我們通過構圖、繪畫和潤色三個階段完成了復雜場景圖像的創建,這與藝術家的創作過程類似。

實驗

實驗設置

對于CxD框架,使用了開源的LLaMA-2 13B版本作為大語言模型(LLM),并使用了Stable Diffusion XL版本作為預訓練擴散模型。然而,CxD被設計為一個通用且可擴展的框架,能夠集成各種LLM架構。所有實驗均在NVIDIA RTX 3090 GPU上進行。使用CxD生成復雜場景圖像大約需要2分鐘,包括處理復雜提示所需的時間。我們精心設計了任務感知模板和高質量的上下文示例,以有效利用LLM的鏈式思維(CoT)能力。

質量評估

評估了CxD在各種復雜性指標下的表現,包括概念數量、空間位置和沖突關系。下圖1展示了SD XL模型和CxD的結果對比。頂部一行顯示,SD XL在處理包含五個實體和屬性的提示時,面臨著高復雜性的挑戰,包括空間定位的失真和不準確,同時也往往忽視實體之間的沖突。相比之下,CxD能夠有效管理高復雜度、精確的空間安排和沖突實體,生成了一致和諧、視覺上令人愉悅的圖像。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

將CxD與之前的最先進文本到圖像模型進行比較,包括SDXL、LDM+ 、DALLE-3 和RPG。LDM+ 和 RPG 利用LLM進行構圖輔助。如下圖5所示,SDXL 和 LDM+ 在處理復雜提示時表現不佳,生成的圖像未能完全滿足提示要求。雖然 DALLE-3 和 RPG 能夠有效捕捉整體內容,但在復雜提示的局部細節上有時會有所遺漏(例如圖5中的紅色部分)。相比之下,CxD將復雜提示分解為簡單提示,確保沒有遺漏任何實體或屬性。因此,CxD 在管理整體語義和局部細節方面表現出色,顯示出其在處理復雜場景方面的有效性。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

定量實驗

使用 T2I-Compbench 基準對 CxD 模型與之前的最先進文本到圖像模型進行了比較。如下表1所示,CxD 模型在通用文本到圖像生成和復雜生成任務中均優于所有其他模型,其中 RPG 排名第二。這突顯了該方法在處理復雜場景生成任務中的優越性。本文的模型在大多數任務中設立了新的最先進基準,特別是在對象關系和復雜場景方面表現突出,顯著優于第二名的方法。這一卓越表現歸功于我們提出的復雜分解標準(CDC)與這些任務的強對齊,展示了該方法在解決復雜場景生成問題中的優越性。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

消融研究

對CxD框架的各個組件進行了評估:(a) 復雜提示潛變量,(b) 背景提示潛變量,(c) 注意力增強調制,和(d) 圖像潤色,如下圖6所示。第一列展示了沒有復雜提示潛變量的圖像,結果為不連貫和不一致的輸出。第二列缺少背景提示潛變量,顯示的背景不符合提示要求。第三列未進行注意力增強調制,結果是實體被遮擋。第四列缺少修改,生成的圖像由于實體過多而細節模糊。最后一列展示了CxD框架的輸出,保持了語義并增強了細節,突顯了CxD每個組件在生成復雜場景中的重要性。

像藝術家一樣畫畫:通過構圖、繪畫和潤色用擴散模型生成復雜場景-AI.x社區

結論

CxD,一種無訓練需求的擴散框架,旨在解決復雜場景生成的挑戰。本文精確定義了“復雜場景”,并提供了一套復雜分解標準(CDC),以幫助人類和大語言模型(LLMs)有效處理復雜場景提示。CxD框架將生成過程分為三個階段——構圖、繪畫和潤色——模擬傳統藝術家的繪畫方法。實驗結果表明,CxD 在生成復雜場景方面表現良好。未來的工作將集中在集成額外的模態數據作為輸入條件,以進一步增強可控性。


本文轉自 AI生成未來 ,作者:Minghao Liu等


原文鏈接:??https://mp.weixin.qq.com/s/CFL1QH4Lt222PLqKE7Gvyw??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲午夜av久久乱码 | 欧美亚洲网站 | 免费一级欧美在线观看视频 | 欧美αv | 国产一区二区三区在线 | 久久久久久久一区 | 午夜电影一区二区 | 嫩草最新网址 | 国产在线91| 精品久久国产老人久久综合 | 久久久亚洲一区 | 看亚洲a级一级毛片 | 国产传媒视频在线观看 | 国产精品1区2区 | 日本欧美国产 | 久久久国产一区二区三区 | av免费看在线 | 91一区二区三区在线观看 | 91原创视频 | 在线视频99| 日韩精品久久久 | 国产成人精品一区二区在线 | 中文字幕不卡在线观看 | 午夜影院在线观看 | 亚洲欧美日韩精品久久亚洲区 | 免费在线成人 | 在线播放国产视频 | 亚洲天堂成人在线视频 | www成人免费视频 | 国产高清一二三区 | aa级毛片毛片免费观看久 | 欧美日韩综合 | 激情亚洲 | 国产精品亚洲综合 | 欧美一级免费看 | 激情 一区| 成人免费在线视频 | 欧美黑人一区二区三区 | 青青草华人在线视频 | 日韩精品一区二区三区视频播放 | 国产一区不卡 |