「個性化」圖像生成時代來了!六大頂尖高校聯手發布全新Gen4Gen框架
過去幾年里,基于文本來生成圖像的擴散模型得到了飛速發展,生成能力有了顯著的提升,可以很容易地生成逼真的肖像畫,以及各種天馬行空的奇幻畫作。
近期的相關研究主要集中在控制模型生成「個性化」的內容,即用戶先提供一個最小概念圖像集,然后對預訓練的文本轉圖像擴散模型進行增強,從而使模型可以生成包含個性化概念的新場景。
現有的一些工作可以增強用戶對生成過程的控制,并衍生出許多量身定制的應用場景;但要同時對多個概念進行個性化處理,并控制圖像生成以準確遵循給定的文本描述,仍然具有挑戰性。
最近,來自加州大學伯克利分校、牛津大學、哈佛大學、卡內基梅隆大學、香港大學、加州大學戴維斯分校的研究人員聯合發表了一篇論文,討論了「圖像生成個性化」領域下的兩個關鍵問題。
論文鏈接:??https://arxiv.org/abs/2402.15504??
項目主頁:??https://danielchyeh.github.io/Gen4Gen/??
1. 當前的個性化技術無法可靠地擴展到多個概念,研究人員推測是由于預訓練數據集(如 LAION)中復雜場景和簡單文本描述之間的不匹配造成的。
2. 對于包含多個個性化概念的圖像,缺乏一種全面的衡量標準,不僅評估個性化概念的相似程度,還評估圖像中是否包含所有概念,以及圖像是否準確反映了整體文本描述。
為了解決上述問題,研究人員提出了一種半自動數據集創建管道Gen4Gen,利用生成模型將個性化概念與文本描述結合成復雜的組合;并且創建了一個可用于多概念個性化任務的基準測試數據集MyCanvas。
此外,研究人員還設計了一個由兩個分數(CP-CLIP 和 TI-CLIP)組成的綜合指標,用于更好地量化多概念、個性化文本到圖像擴散方法的性能。
我們在 Custom Diffusion 的基礎上提供了一個簡單的基線,其中包含經驗性提示策略,供未來的研究人員在MyCanvas上進行評估。
實驗結果表明,通過改進數據質量和提示策略,可以顯著提高多概念個性化圖像生成的質量,而無需對模型架構或訓練算法進行任何修改。
結果也證明,chaining基礎模型可能是生成高質量數據集的一個有前途的方向,主要面向計算機視覺領域的各種挑戰性任務。
Gen4Gen:面向多概念個性化的數據驅動方法
給定一組由用戶提供的、多個概念的照片,多概念個性化的目標是學習每個概念的特征,以便能合成由多個概念組成的、背景和構圖各不相同的新圖像。
但隨著要注入圖像的個性化概念數量的增加,問題的難度也會大大增加。
之前的研究主要集中在優化訓練策略上,而這篇論文證明了在整個訓練過程中提高數據質量可以提高多概念個性化圖像的生成質量。
1. 數據集設計原則
從 LAION 數據集中最具美感的子集(LAION-2B-en improved Aesthetics)中,可以清楚地看到圖像的復雜程度與簡單描述之間的不匹配。
由于該數據集主要通過網絡檢索,因此可能會出現差異:例如,圖像可能存在不準確的大量文本描述,以及包含多個對象的圖像分辨率較低。
研究人員從這些差異中汲取靈感,并提供了三個關鍵的設計原則:
1)詳細的文字描述和圖像配對:文本必須與相應的圖像對齊,為前景和背景對象提供信息;
2)合理的物體布局和背景生成:為了避免圖像看起來像人工剪切混合圖像(Cut-Mixes),并充分利用 LAION 數據集已有的信息,必須確保只有在現實生活中有可能捕捉到物體時,這些物體才會同時出現在一張圖像中,而且它們在圖像中的位置也要合理;
3)高分辨率:確保數據集能夠滿足生成高質量、多概念個性化圖像的最終目標。
2. Gen4Gen管道
如上圖所示,Gen4Gen主要包括三個階段:
1)對象關聯(object association)和前景分割;
2)LLM 引導的對象組合;
3)背景重繪和圖像重構。
3. 數據集統計
對于MyCanvas數據集,研究人員收集了150個對象(每個對象有一張或多張圖片),并創建了41個可能的組合(composition)和 10,000 多張圖片,然后手動篩選出 2684 張重繪結果質量最好的圖片。
在該數據集中,圖像描述的平均單詞長度為17.7個,大約30%的描述長度超過了20個單詞。
與之前的基準(如 DreamBooth 和 Custom Diffusion)相比,新數據集涵蓋了更多種類的對象和多概念組合,因此是衡量個性化任務的更全面的數據集。
4. 提升訓練時間的文本提示
除了設計與數據集中的圖像完全一致的提示外,研究人員在訓練過程中進一步探索最佳提示設計。
全局合成token
之前的工作(如DreamBooth)已經表明,模型可以學會將一個新token映射到非常困難的概念上,如莫奈藝術這樣的抽象風格。
研究人員將這一概念應用于復雜的合成:通過引入全局token和每個物體的單獨token,該模型在描述詳細場景安排方面的能力得到了增強,從而生成的圖像更加逼真、更加連貫
在訓練過程中重復概念token提示
可以注意到,在很多情況下,涉及多個概念的復雜組合往往會導致一個或兩個概念缺失,可能是由于模型有時會忘記冗長提示中的細節;所以在訓練過程中采用了重復概念token提示的策略,可以促使模型確保生成的圖像中存在每個指定的概念,從而提高整體對象的持久性和完整性。
結合背景提示
研究人員觀察到一個問題,即在token特征空間中,背景會無意中與object identity一起學習。
為了區分背景和概念的構成,必須確保在訓練提示中說明背景,以鼓勵concept tokens只學習object identity
5. 個性化組合指標(composition metric)
為了克服這一問題,我們從文獻[3, 18]中汲取靈感,提出了兩個指標。第一個指標是合成個性化 CLIP 分數(CP-CLIP),用于評估合成和個性化的準確性。第二個指標是文本-圖像對齊 CLIP 分數(TI-CLIP),通過評估模型在不同文本背景下的泛化質量,作為潛在過擬合的指標。
組合個性化CLIP評分(CP-CLIP)
用于評估組合和個性化的準確率。
該指標主要解決兩個問題:
1)文本中提到的每個個性化概念是否都在圖像生成過程中得到了反映?(組合準確性)
2)生成的個性化概念是否與其源對應概念相似?(忠實度)
文本圖像對齊CLIP評分(TI-CLIP)
通過評估模型在不同文本背景下的泛化質量,作為潛在過擬合的指標。
為了定量衡量過度擬合的程度,研究人員將TI-CLIP計算為「生成圖像」與「提示詞」之間的 CLIP 分數。
雖然 TI-CLIP 的表述與 CP-CLIP 非常相似(即可以將 TI-CLIP 視為個性化剪輯得分的一種特例,其邊界框為整個圖像,個性化目標為文本),但其評估的是模型泛化質量的一個正交概念,因此應作為一個單獨的指標來衡量。
從高層次來看,TI-CLIP 衡量的是整個生成圖像的背景提示(不包括對象),在提高CP-CLIP分數時,其目標應該是維持 TI-CLIP 的評分,也能表明模型并沒有過度擬合訓練集的背景。
評分解釋
在實踐中,研究人員發現CP-CLIP的理想分數約為0.5,而TI-CLIP的分數應保持不變,不會增加。
實驗結果
定量分析
研究人員使用了 41 個文本提示,每個提示有 6 個樣本,共生成 246 幅圖像。
很明顯,在使用原始源圖像進行學習時,Custom Diffusion的性能比使用 MyCanvas 數據集的同類產品降低了 50%。
將我們的提示策略應用于自定義擴散后,CP-CLIP 分數進一步提高。
值得注意的是,TI-CLIP 分數(表示背景泛化)在所有方法中都保持一致,可以確保組合準確率的提高不是因為過擬合。
定性分析
研究人員精心設計了多個prompt來測試模型在不同于訓練場景的新場景中生成概念、將概念與其他已知對象(如獨木舟上的貓、漂浮物上的獅子)組合在一起以及描述概念相對位置(如并排、背景中)的能力。
主要對比了三種設置下的定性結果:
1)使用原始源圖像進行自定義擴散;
2)使用MyCanvas(由源圖像組成的數據集)進行自定義擴散;
3)提示策略建立在使用MyCanvas進行自定義擴散的基礎之上。
可以看到,即使背景描述極具挑戰性,組合策略也能成功分離出潛在空間中相似的物體(如獅子和貓、兩輛拖拉機)。
此外,隨著組合的難度增加(即每一行的下降會增加組合中對象的數量),提示方法可確保在生成過程中不會遺漏任何概念。
值得注意的是,結果證明了通過使用 MyCanvas 數據集,現有個性化模型(如自定義擴散模型)的生成質量可以顯著提高。
本文轉自 新智元 ,作者:新智元
