圖像生成/編輯應用落地必不可少!MuLAn:首個實例級RGBA分解數據集
文章:https://arxiv.org/pdf/2404.02790.pdf
數據集:???https://MuLAn-dataset.github.io/??
文本到圖像生成已經取得了令人驚訝的成果,但精確的空間可控性和prompt的保真度仍然是極具挑戰性的。通常通過繁瑣的prompt工程、場景布局條件或圖像編輯技術來解決這一限制,這些技術通常需要手繪mask。然而,現有的工作往往難以利用場景的自然實例級組合性,因為柵格化的 RGB 輸出圖像通常是平面的。
為了解決這一挑戰,本文介紹了MuLAn:一個新穎的數據集,包含超過 44K 個RGB圖像的MUlti-Layer ANnotations,作為多層、實例級別的RGBA分解,并包含超過100K個實例圖像。為了構建MuLAn,本文開發了一個無需訓練的pipeline,將單目RGB圖像分解為包含背景和孤立實例的RGBA層堆棧。通過使用預訓練的通用模型,并開發了三個模塊:圖像分解用于實例發現和提取,實例補全用于重建被遮擋區域,以及圖像重組。使用pipeline創建了MuLAn-COCO和MuLAn-LAION數據集,這些數據集包含各種風格、構圖和復雜度的圖像分解。通過MuLAn,提供了第一個提供實例分解和遮擋信息的逼真資源,為高質量圖像開辟了新的文本到圖像生成AI研究途徑。通過這一舉措,旨在鼓勵開發新型的生成和編輯技術,特別是層級解決方案。
圖像分解可視化展示
介紹
大規模生成diffusion model 現在能夠根據文本prompt詞描述生成高質量的圖像。這些模型通常在包含多種風格和內容的標注RGB圖像的大型數據集上進行訓練。雖然這些技術已經極大地推動了文本引導圖像生成領域的發展,但圖像外觀和構成(例如局部圖像屬性、可計數性)的精確可控性仍然是一個挑戰。Prompt指令經常缺乏精確性或被誤解(例如計數錯誤、空間位置錯誤、概念混淆、未能添加或刪除實例),因此需要復雜的prompt工程來獲得期望的結果。甚至稍微改變prompt都可以通過微調生成的圖像而導致顯著不同的樣本,需要進一步的努力,才能獲取高質量的所需圖像。
為了解決這些限制,一些努力考慮了額外的條件,例如姿態、分割圖、邊緣圖以及基于模型的圖像編輯策略。前者改善了空間可控性,但仍需要繁瑣的prompt工程來調整圖像內容;而后者通常無法理解空間指令,因此難以準確修改所需的圖像區域,而不影響其他區域或引入不必要的形態學變化。
本文推測一個關鍵障礙是典型的柵格化RGB圖像通常具有平坦的特性,無法充分利用場景內容的組成性質。相反,將實例和背景隔離在單獨的RGBA層上具有潛力,可以精確控制圖像的組合,因為在單獨的層上處理實例可以保證內容的保留。這可以簡化圖像操作任務,例如調整大小、移動或添加/刪除元素,而這些任務對于當前的編輯方法仍然是一個挑戰。
Collage Diffusion 和 Text2Layer 已經顯示出多層可組合圖像生成的好處的初步證據。Collage Diffusion 通過組合任意輸入層來控制圖像布局,例如通過采樣可組合的前景和背景層,而 Text2Layer 探索將圖像分解為兩個單獨的層(分組前景實例和背景)。盡管對無需訓練的分層和復合生成越來越感興趣,但在這個有希望的方向上進行研究開發的主要障礙是缺乏公開可用的逼真的多層數據,以訓練和評估生成和編輯方法。
在這項工作中,本文旨在填補這一空白,引入了一個名為MuLAN的新型數據集,其中包含自然圖像的多層RGBA分解標注(請參見下圖中的RGBA分解示意圖)。為了實現這一目標,本文設計了一個圖像處理pipeline,它將單個RGB圖像作為輸入,并輸出其背景和單個對象實例的多層RGBA分解。本文提出利用大規模預訓練的基礎模型來構建一個強大的通用pipeline,而不產生額外的模型訓練成本。
本文將分解過程分為三個子模塊,重點放在:
- 實例發現、排序和提取;
- 遮擋外觀的實例補全;
- 將圖像重新組裝為RGBA堆棧。
每個子模塊都經過精心設計,以確保通用適用性、高實例和背景重建質量,并確保輸入圖像與組合的RGBA堆棧之間的最大一致性。本文使用本文的新型pipeline處理了來自COCO 和 LAION Aesthetics 6.5 數據集的圖像,為超過44,000張圖像和超過100,000個實例生成了多層實例標注。生成的分解示例如下圖所示:每個分解的圖像包括一個背景層,提取的實例是具有透明度 alpha 層的獨立RGBA圖像。可以從RGBA堆棧中刪除實例,產生幾種中間表示形式;其中通過修補完成結果遮擋的區域。
本文發布MuLAn的目標是通過提供全面的場景分解信息和場景實例一致性,促進生成圖像作為RGBA堆棧的技術的開發和訓練。本文旨在促進尋求以下研究的進展:(i) 提高生成圖像結構的可控性,以及 (ii) 通過精確的逐層實例編輯來改善局部圖像修改質量。本文通過兩個應用案例展示了本數據集的潛在效用和逐層表示的優勢:1) RGBA圖像生成和 2) 實例添加圖像編輯。總體上,本文的主要貢獻是:
- MuLAn的發布是一個新穎的多層標注數據集,包括來自COCO和LAION Aesthetics 6.5的逾44,000張圖像的RGBA分解。據本文所知,MuLAn是其類別中的第一個數據集,為各種場景、風格(包括逼真的真實圖像)、分辨率和目標類型提供了實例分解和遮擋信息。
- 本文提出了一種新穎的模塊化pipeline,將單個RGB圖像分解為實例化的RGBA堆棧,無需額外的訓練成本。本文的想法以創新的方式利用了大型預訓練模型,并包括排序和迭代修補策略,以實現本文的圖像分解目標。這進一步使本文能夠深入了解大模型在實際應用中的行為。
- 本文通過兩個應用展示了MuLAn的潛力,這兩個應用以不同的方式利用了本文豐富的標注信息。
相關工作
Amodal completion 旨在自動估計部分遮擋對象的真實結構和外觀。這項具有挑戰性的任務已經得到了深入研究,通常建立在在合成或富有標注的數據集上訓練的模型基礎之上。這些數據集通常包括包含遮擋區域的實例分割mask。此外,與MuLAn最接近的數據集包括遮擋區域的外觀信息和實例排序信息。本文在下表中提供了這些數據集與本文的詳細比較。生成真實的遮擋標注的時間和成本要求限制了先前研究僅限于合成、小型或高度專業化的數據集,如室內場景、人類、車輛和目標以及人類等。相比之下,MuLAn包括了各種場景、風格(包括逼真的真實圖像)、分辨率和目標類型的圖像,并且建立在流行數據集之上,以支持生成式 AI 研究。本文強調本文使用真實圖像相對于現有數據集對遮擋率的影響,其中合成場景被設計得有很高的遮擋率。
RGBA圖像分解 需要在單獨的透明層上識別和隔離圖像實例,并估計遮擋區域的形狀和外觀。這項具有挑戰性的任務通常需要使用額外的輸入(超出單個RGB圖像),例如不完全遮擋的分割、立體圖像和時間視頻幀。后者極大地促進了分解任務,因為視頻幀可以提供缺失的遮擋信息。最近,基于層的生成建模受益于初步探索。
Text2Layer 將自然圖像分解為兩個層的RGBA分解。圖像被分解為背景和顯著的前景層,其中背景使用無prompt的最先進的diffusion model進行修補。與本文的方法相比,這種方法的主要限制在于兩層分解:所有實例都提取在同一個前景層中,這嚴重缺乏本文所需的實例分解的靈活性。本文的目標是單獨分解每個實例,這帶來了額外的挑戰,如實例排序、實例修補和不完全遮擋補全。與本文的分解目標相鄰,PCNet 學習預測實例排序、不完全遮擋mask和對象補全。然而,該方法的適用性受限于前述的不完全遮擋完成數據集的限制。據本文所知,本文的分解流程是唯一能夠分解單目RGB圖像的通用技術。
與本文的工作相輔相成的是一種用于diffusion model 的圖像拼貼策略——Collage Diffusion,它具有類似的實例級模塊化目標。雖然本文的目標是從圖像中提取實例,但他們的方法旨在將單個實例組裝成一個同質的復合圖像。這個先前工作的一個限制涉及到在拼貼實例的外觀保持和復合圖像的同質性之間取得平衡的挑戰,這可以被認為是非平凡的,并且隨著實例數量的增加而變得更加困難。
圖像分解pipeline
本文的流程概述如下圖所示,可以在補充材料中找到進一步的詳細示意圖,它顯示了所有組件的實例化。
圖像分解模塊
本文的分解模塊旨在提取并隔離圖像中的所有實例。本文首先使用目標檢測和分割模型識別和分割實例。與此同時,本文依靠深度估計和遮擋排序模型構建相對遮擋圖,并建立實例的提取、修補和重新組裝順序。
目標檢測。準確地檢測圖像中的所有相關實例是本文的pipeline的第一步。為了實現良好的質量分解,本文必須能夠檢測和分離場景中的所有實例。為此,本文利用了視覺語言目標檢測技術,它輸入要檢測的類別列表以及輸入圖像。這樣的模型具有吸引力,因為它們可以輕松實現開放集檢測,意味著本文不限于特定數據的預先存在的類別集。本文使用了detCLIPv2,這是一個具有以下特點的最先進的模型:它能夠利用類別定義(而不僅僅是類別名稱)來提高檢測準確性。
本文精心構建了文本輸入(類別列表),以確保從圖像中檢測和提取所有所需的類別。本文使用了來自THINGS 數據庫的概念列表,并手動更新和簡化它,以獲得更通用的類別名稱(例如,合并船型、飲料、堅果等),并刪除同音詞和本文不想提取的概念(例如,不可移動的目標、服裝、螺栓和鉸鏈)。本文強調,這個列表構成了pipeline的一個輸入,可以輕松地定制要檢測的實例。除此之外,本文還使用了WordNet 數據庫的定義,以識別圖像中的所有相關實例。pipeline的這一步輸出了一系列帶有相應類別名稱的邊界框。
分割。本文的下一步是精確分割檢測到的實例。為了處理大量的類別、領域和圖像質量,本文尋求利用一個強大的通用分割模型。其中一個這樣的模型是SAM ,它已經經過了所需的多樣性和規模的訓練,在大量領域中取得了良好的穩健性和可轉移性。利用邊界框作為分割預測的基礎的能力,使得這類模型成為與本文的 detCLIPv2 檢測器結合的優秀選擇。
深度估計。理解圖像中實例的相對位置對于實現本文的RGBA分解目標至關重要。深度估計提供了關鍵信息,指示了拍攝時相機到目標的距離。本文使用 MiDaS 模型,選擇它是因為它的穩健性:它在12個不同的數據集上進行了訓練,使其在不同類型的場景和圖像質量下都能可靠地工作。一旦計算完成,本文將深度圖分成多個寬度為250的相對深度單元的box,以便進行跨實例的比較。
實例提取。本文將實例提取定義為將二進制mask應用到完整圖像上,以將檢測到的實例與圖像的其余部分隔離開來。本文采用一系列策略來增強這一關鍵步驟的穩健性。首先,本文通過基于它們的邊界框重疊來對實例進行聚類,估計一個原始順序,并使用邊界框大小和平均深度值(在分割mask內)來對它們進行排序。其次,本文使用本文的原始順序來強制執行不相交的實例分割mask,通過將后續實例的提取區域排除在分割mask之外。最后,如果實例的最大連通分量小于20像素或占整個圖像的0.1%,則不提取該實例。
實例排序。為了最大化實例補全的質量,使用原始圖像的上下文信息對遮擋區域進行修補是必要的。因此,建立精確的實例補全計劃對于逐步豐富圖像上下文而不遮擋相關區域至關重要。本文通過以下三個步驟生成實例排序,依賴于本文在分解步驟中獲取的深度排序和遮擋信息。首先,根據它們的深度信息對實例進行排序,從最遠到最近(根據實例的平均深度值)。這可以通過使用實例深度圖輕松實現:通過計算節點出度,即離開節點的有向邊的數量,即在本文的節點后面的實例的數量。其次,本文依靠本文的遮擋圖來優化本文的排序:如果實例A遮擋實例B,則實例B將系統地在實例A之前排序。最后,相互遮擋的實例根據它們的最大深度值重新排序。實例排序算法的詳細信息在原文補充材料中提供。
實例補全模塊
在實例補全之前,本文已成功地從背景圖像中檢測、隔離和排序了所有實例。但還存在一個重要挑戰:對每個圖像層 li(包括背景)單獨重建遮擋區域,以便移除或隱藏任何圖層都能顯現出遮擋區域。由于本文正在分解自然圖像,這些信息并不對本文可見。本文依靠最先進的生成模型,利用圖像補全技術從現有上下文中想象這些遮擋區域。
基于 Diffusion model 的圖像修補技術相比傳統的圖像修補技術已經樹立了新的標準,因為它們不僅利用了圖像內容,還利用了學習到的圖像先驗和文本條件。即便如此,本文的設置也存在著獨特的困難:
- 與精心設計手工prompt的常見策略相反,本文只能依靠自動生成的描述
- 實例圖像包括具有均勻顏色背景的實例,這種圖像模式通常不會被這些模型所見
- 本文尋求簡單、準確且高質量的補全,而不是獲得美麗或創意的圖像。接下來,將詳細介紹本文的圖像修補過程以及如何解決這些困難。
圖像修補過程。本文的圖像修補過程概述如下圖所示。給定預定義的實例順序,本文迭代地修補一個實例的遮擋區域,從背景圖像開始,直到最近的實例。對于給定的實例,本文的圖像修補過程如下進行:首先,本文利用遮擋順序信息和遮擋實例的分割mask來估計一個修補mask。其次,本文通過將不完整的實例重新整合到中間背景圖像中來構建一個上下文修補圖像。這個背景圖像包含了在先前迭代中處理的已修補實例。第三,利用最先進的修補生成模型和自動生成的描述作為prompt,對實例進行修補。第四,本文使用本文的分割模型和遮擋分割mask來重新提取已完成的實例,有效地獲取完整的實例圖像,這將成為本文多層表示的一部分。最后,本文通過將新修補的實例整合到背景修補圖像中來更新下一次迭代的背景修補圖像。
重要的是,本文的目標是在最大程度地保留場景上下文和防止引入無關的圖像內容之間取得平衡。這對于相互遮擋的實例尤為重要:例如,考慮一個人手持手機,手是上下文,當修補手機的遮擋區域時,手指將被重建。為了防止這種情況發生,本文通過用一個常數值替換具有比下一個實例的最大深度更高的像素的信息來“隱藏”潛在的誤導性上下文。
修補mask。估計一個準確的修補mask,即描述哪些圖像區域將被覆蓋,對于實現準確的實例補全至關重要。如果未能包含關鍵的遮擋區域,則有可能產生不完整的結果,而mask過大則可能改變原始圖像的外觀。理想情況下,通過模態完成技術來估計一個準確的完整實例形狀。然而,現有方法往往針對特定的數據集或對象類別,具有有限的泛化能力。本文提出利用大型生成模型的內在偏差,提供一個大的修補mask,包括遮擋對象可能存在的區域。這通過構建一個包含所有遮擋實例的分割mask的修補mask來實現。
修補prompt保持簡單,因為本文尋求一種完全自動化的分解策略。對于實例修補,本文利用自動生成的實例描述。對于背景圖像的修補,本文使用一個簡單的通用prompt(“一個空場景”),確保生成的修補背景盡可能簡單。重要的是,在所有負面prompt中包含所有其他實例的類名,以避免重新引入已提取的實例。這增加了對不完美分割的魯棒性。
圖像重組模塊
最后一個也是最簡單的模塊將所有單獨的RGB圖像重新組裝成一個有序的RGBA堆棧,一旦展開,就會產生一個盡可能接近原始輸入圖像的圖像。實例RGB圖像根據本文的修補順序進行排序,因此最后修補的實例位于堆棧的頂部,而背景位于底部。按照這個順序,本文通過細化實例分割mask來迭代地為每個堆棧元素生成Alpha層。
本文使用圖像摳圖模型VitMatte 對修補后的SAM分割進行后處理,以改善Alpha混合質量,處理透明對象,并解決SAM的欠分割傾向。雖然在前兩個模塊中欠分割是首選的,以避免在修補時引入鄰近內容和錯誤的先驗,但是在這個最后階段,本文需要準確的分割。VitMatte優化了SAM的輸出,提供了更平滑的非二進制分割,并允許本文以更自然的方式混合修補后的實例。在存在相互遮擋的情況下(即較低級別的實例創建遮擋),本文通過將遮擋區域設置為透明來進一步調整Alpha層。這最后一個模塊最終輸出本文的RGBA堆棧圖像分解。
描述策略
本文為所有圖層(背景、實例)、中間展開的RGBA堆棧以及完整圖像生成描述。本文使用LLaVa 為標準圖像生成詳細的描述。由于實例圖像的獨特性(實例在統一的白色背景上),像LLaVa這樣冗長的描述模型往往會產生圖像特征的幻覺。為了解決這個問題,本文利用BLIP-2模型為實例生成描述,并進行了參數搜索以選擇一組限制冗長和幻覺的參數集。此外,本文使用受限束搜索來生成多個描述,并使用CLIP 選擇最佳描述。使用LLaVa標注的組件也會使用BLIP進行標注,以確保完整性。
MuLAn數據集
基礎數據集
本文在兩個數據集上運行本文的完整方法,這些數據集提供了足夠的場景組合性來充分利用本文的流程:COCO 數據集和 LAION 數據集的 Aesthetic V2 6.5 子集。Aesthetic 子集對完整的 LAION 數據集進行了篩選,僅選擇了美學分數至少為 6.5 的圖像,包括 625K 張圖像。為了限制場景復雜性并且便于檢查,本文只考慮包含一到五個實例的圖像,這是通過本文的目標檢測器的輸出來確定的。本文處理所有的 COCO 圖像(58K 張圖像),以及一個隨機子集的 100K 張 LAION 圖像,以限制計算成本。
數據篩選
本文的目標是構建一個包含高質量分解的數據集,并排除潛在的失敗模式。為此,本文手動檢查和標記本文處理過的數據,確定了分解失敗的六個主要原因:
- 目標檢測:在圖像中缺少關鍵實例,或者同一對象多次檢測。
- 分割:原始圖像上的不正確的實例分割,或修補后的分割。
- 背景修補:背景圖像的錯誤修補。這可能是由于不完美的分割造成的,以及本文的pipeline沒有考慮到場景中的因果視覺實例效果(例如陰影)。
- 實例修補:實例的不正確或不完整的修補。這通常是由于mask形狀或姿態偏差(例如人手持吉他)造成的。
- 截斷實例:圖像摳圖過度侵蝕了非常小實例的 Alpha mask。
- 無關分解:不適合實例逐個分解的場景(例如錯誤檢測到部分景觀的場景)。
此外,為了分析目的,本文標注了一些例子,其中實例排序不正確,背景元素遮擋實例,并且實例完成受到本文邊界框約束重新分割的限制。本文在補充材料中提供了失敗模式的視覺示例。使用 Voxel FiftyOne ,本文從本文處理過的 LAION Aesthetic 6.5 圖像中隨機選擇了 5000 張圖像進行標注,為成功的分解添加了 “good” 標簽。為了減少偏見,標注由 3 位標注者獨立完成。本文強調,可以為單個圖像分配多個標簽,并且當缺陷較小且不影響分解的整體有效性時,特別將 “good” 標簽與其他標簽關聯。下圖中顯示了手動標注集中各種失敗模式的分布,突出顯示總體成功率為 36%(帶有輕微缺陷的為 52%)。
本文可以看到,分割問題是最大的失敗模式,其次是修補和目標檢測。本文的新排序失敗,以及邊界框限制和背景遮擋的失敗是最罕見的問題。
本文利用本文的手動標注來訓練兩個分類器,以自動標注本文處理過的其余數據:一個圖像級別的分類器標記背景和無關的分解問題,一個實例級別的多標簽分類器標識剩余的失敗模式。有關本文分類器架構和訓練過程的詳細信息,請參閱原文補充材料。下圖顯示了 LAION 和 COCO 數據集的結果標簽分布。本文采取保守的方法,只選擇具有確信的 “good” 標簽的圖像作為成功的分解,并且僅在圖6中報告此部分的 “good” 標簽。這樣,在 COCO 數據集中獲得了 16K 個分解,而在 LAION 中獲得了 28.9K 個分解,總共為本文的 MuLAn 數據集提供了 44.8K 個標注。
本文的 LAION 自動失敗模式分布與本文手動標注的部分非常相似,其中分割和修補始終是突出的問題。COCO 的分布類似,但目標檢測錯誤更多。這是預期的,因為眾所周知,COCO 是一個具有挑戰性的目標檢測基準(具有 COCO 和 LVIS 標注),場景復雜。相比之下,LAION 包含了較簡單的場景,實例較少。
數據集分析
通過本文精心策劃的高質量標注,本文進一步分析了本文 44.8K 個已標注圖像的場景分布和多樣性。下圖顯示了 MuLAn 中場景的分布情況,以每個圖像中的實例數量為單位。本文可以看到,LAION 數據集中大多數圖像都是單個實例圖像,這可能與高度美學化的圖像往往是簡單場景有關(例如肖像 - 這也在原文補充圖 S2 中有所突出)。盡管如此,MuLAn-LAION 包含足夠復雜的場景,其中 21%(約 6K)的圖像每個圖像都有三個以上的實例。MuLAn-COCO 實現了良好的場景多樣性,其中 10% 的數據集包含五個實例,幾乎一半的數據集(44% ? 7K)包含三個以上的實例,而僅有 28%(? 4.5K)的單實例圖像。
接下來,本文將從實例類型的角度調查場景的多樣性。在 942 個檢測類別中,本文分別在 MuLAn-COCO 和 MuLAn-LAION 中獲得了 662 和 705 個類別,總共在 MuLAn 中有 759 個類別。下圖展示了每個數據集中前十個最常見的類別。雖然人類別在兩者中都是占主導地位的類別,但在 LAION 中占絕大多數。除了人類別外,MuLAn-LAION 主要包括無生命和裝飾目標,而 COCO 包括更活躍的場景,尤其是動物和體育運動。在前十個類別中,只有三個類別同時出現在兩個數據集中(人、汽車和鳥類)。這些結果突顯了兩個數據集子集的互補性,MuLAn-LAION 專注于更簡單、高質量和視覺上令人愉悅的場景,而 MuLAn-COCO 展示了更多樣化的場景類型。每個子數據集的完整、排序的類別列表詳見補充材料。
最后,圖12 展示了來自 MuLAn 的 RGBA 分解的其他視覺示例,展示了各種場景組成、風格和類別類型。額外的示例可在補充材料中找到。
數據集應用
為了展示本文的 MuLAn 數據集的潛在用途,本文提供了兩個實驗,展示了不同的示例場景,可以在這些場景下利用本文的數據集。
RGBA 圖像生成。本文的第一個應用利用 MuLAn 實例,通過微調 Stable Diffusion (SD) v1.5 模型的 VAE 和 Unet,使其能夠生成具有透明通道的圖像。在下圖中,本文提供了使用附加了“在黑色背景上”的prompt,并在本文的數據集上進行微調的 SD v1.5 生成的圖像的視覺比較,與一個在多個摳圖數據集中微調了 15,791 個實例的模型進行比較。本文可以看到,本文的數據集能夠生成質量更好的 RGBA 實例,因為它對透明通道的理解更好。
實例添加。本文的第二個應用考慮了一項圖像編輯任務,其目標是向圖像中添加實例。本文微調了InstructPix2Pix 模型,利用本文能夠無縫地向本文的 RGBA 堆棧中添加或移除實例的能力。本文為InstructPix2Pix 的訓練數據包括三元組,,,其中是第 i + 1 層的實例描述,是通過將不完整的 RGBA 堆棧展平到第 層得到的 RGB 圖像。為了評估性能,本文使用 EditVal 的實例添加評估策略。本文引入的基準測試上報告結果(該測試在沒有屬性的情況下添加對象),并構建了一個額外的屬性驅動的評估基準。有關評估指標和本文基準測試的詳細信息,請參閱原文補充材料。下圖1強調了本文的模型在整個光譜中具有更好且更一致的性能,特別是在場景保護方面。這在下圖2中進一步得到了證明,可以清楚地看到本文的模型具有更低的屬性滲漏和更好的背景保留。這可以歸因于本文的訓練設置保證了背景的保留,而 InstructPix2Pix 使用 Prompt-to-prompt 編輯結果。
結論
本文介紹了 MuLAn,這是一個包含超過 44,000 個 RGB 圖像的多層標注的新型數據集,旨在用于生成式人工智能開發。本文通過使用一種新穎的pipeline處理 LAION Aesthetic 6.5 和 COCO 數據集中的圖像來構建 MuLAn,這種pipeline能夠將 RGB 圖像分解為多層 RGBA 堆棧。MuLAn 提供了各種場景類型、圖像風格、分辨率和對象類別。通過發布 MuLAn,旨在為構圖性文本到圖像生成研究開辟新的可能性。構建 MuLAn 的關鍵在于本文的圖像分解pipeline。詳細分析了pipeline的失敗模式,尤其是分割、檢測和修補。未來的工作將探索改進性能并增加 MuLAn 大小的解決方案。本文可以利用pipeline的模塊化特性來引入性能更好的模型,例如分割器或修補器。此外,該pipeline可以作為一個獨立的解決方案來分解圖像,并利用常見軟件來進行編輯。為了支持這一點,本文還研究了人機循環擴展。
本文轉自AI生成未來 ,作者:Yongxin Yang等
