擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)

發布于 2024-4-18 11:56

瀏覽

0收藏

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

文章鏈接：https://arxiv.org/pdf/2403.17924
代碼&demo：???https://github.com/QY-H00/attention-interpolation-diffusion??

條件擴散模型可以在各種設置中創建未見過的圖像，有助于圖像插值。潛在空間中的插值已經得到了深入研究，但是帶有特定條件（如文本或姿態）的插值則了解較少。簡單的方法，比如在條件空間中進行線性插值，通常會導致圖像缺乏一致性、平滑性和保真度。為此，本文引入了一種新穎的無需訓練的技術，名為通過擴散進行注意力插值（AID）。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

主要貢獻包括：

提出了內/外插值注意力層；
將插值關注與自注意力融合，以提高保真度；
應用貝塔分布進行選擇，增加平滑度。

本文還提出了一種變體，稱為通過提示引導的注意力插值（PAID），它將插值視為一種條件相關的生成過程。這種方法使得可以更一致、更平滑、更高效地創建新的圖像，并能夠對插值的確切路徑進行控制。我們的方法在概念和空間插值方面表現出了有效性。

介紹

在生成模型的潛在空間中進行插值，例如變分自編碼器（VAEs）、生成對抗網絡（GANs）和擴散模型已經得到了廣泛的研究。插值允許模型在潛在空間內從一個種子到另一個種子生成平滑過渡的圖像，從而促進了諸如圖像屬性修改、數據增強和視頻插值等應用。最近對文本到圖像擴散模型的研究進展表明其能夠生成受文本描述條件約束的高質量圖像。與潛在空間插值不同，插值在條件空間內進行，本例中是文本，仍然相對未被深入研究。本文探討了在擴散模型環境中如何在不同條件之間進行插值的新問題，例如在擴散模型的背景下的“一輛卡車”和“一只貓”。

最相關的工作涉及使用擴散模型進行兩個真實世界圖像之間的插值。他們將圖像描述為文本，然后在文本embedding空間內采用線性插值對兩個圖像進行插值。然而，當概念顯著不同時，這種方法可能失敗，因此強調了任務的固有難度，如下圖2中的第一行所示。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

我們確定了條件空間插值面臨的三個主要挑戰：確保主題一致性（避免不相干的過渡，例如“狗”通過“碗”變成“貓”)），在相鄰圖像之間確保平滑的視覺過渡，并獲得高質量的插值圖像。基于這三個挑戰，制定了條件插值的任務，并提出了三個評估指標：一致性、平滑性和保真度。

為了解決這些問題，引入了一種新穎的框架，即擴散注意力插值（AID），它包括幾項創新，以增強條件插值的質量：

用雙（內部/外部）插值注意力機制替換標準注意力，以保持來自兩個源圖像的關鍵視覺特征，從而提高一致性；
將插值注意力與自注意力相結合，進一步增強一致性和圖像保真度；
提出沿插值路徑的貝塔分布選擇以增加平滑度。
還將插值重新構想為一種條件相關的生成過程，并引入了通過提示引導的擴散注意力插值（PAID）。

我們的方法無需訓練，實驗結果表明，它顯著增強了在各種條件下插值序列的平滑性、一致性和保真度，如下圖1、5和6所示。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

AID能夠有效地管理不同概念或空間布局之間的插值，使用內部或外部插值注意力，并可以通過提示指導進行進一步定制，正如我們的結果所示。

主要貢獻：

在文本到圖像擴散模型的環境中制定了條件插值的新問題，并提出了三個評估指標以評估一致性、平滑性和保真度。
引入了一種新穎的zero-shot方法，稱為擴散注意力插值（AID），其中包括融合的內部/外部插值注意力機制和貝塔先驗選擇，以提高插值序列的質量。AID可以通過提示引導插值（PAID）來進一步控制兩個條件之間的特定路徑。
通過廣泛的實驗證明，AID顯著改善了插值序列的定性和定量指標，插值序列的保真度、一致性和平滑度均有顯著提升。

前提和分析

前提條件

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

插值。插值在計算機圖形學中已經得到了廣泛研究。在本文中，主要關注張量之間的線性插值。給定張量A和張量B，線性插值路徑r(t)，其中t ∈[0,1]，定義為:

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

通常，為了離散化插值路徑，先前的工作[14, 30, 36, 39, 44]采用均勻分布的點來提供插值序列。形式上，給定大小為m，序列表示為:

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

條件插值的問題形式化

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

感知平滑性。在先前在潛在空間進行插值的工作中，通常忽視了平滑性。他們的主要重點是評估連續的感知路徑，其中PPL既表示一致性又表示平滑性。然而，在考慮離散插值序列時，情況并非如此。例如，如果序列中的所有插值圖像都相同，則序列不平滑，但一致性值較低。因此，我們需要一個獨特的指標來評估平滑性。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

其中模型Mv是一個視覺Inception模型。FID評估了插值圖像的感知特征分布與源圖像的差異程度。我們的制定與先前的研究有所不同，重點在于對離散樣本的評估，即插值序列，而不是連續的插值路徑。這是至關重要的，因為插值序列的質量不僅取決于插值路徑的質量，還取決于如何選擇插值路徑上的確切樣本，而先前的方法忽視了這一點。此外，在實際使用中，插值序列的大小通常較低。因此，我們的評估框架專門設計用于插值序列。

這三個指標定量評估了插值序列的質量。下面描述這些評估指標如何反映這一任務的挑戰。

樸素條件插值的失敗

條件插值最基本的方法是在編碼的條件空間內應用線性或球面插值。例如，[42]在不同的文本embedding和姿態之間進行插值，而[16]在編碼不同風格的向量之間進行插值。我們觀察到三個問題使得這樣的方法存在問題，導致結果具有較差的一致性、平滑性和保真度。

問題1：間接路徑。通過文本embedding空間的路徑與視覺空間中的自然路徑不一致，導致一致性降低。例如，從“一個蘋果”到“一張床”之間的插值可能會經過像“一張凌亂的草圖”之類的中間階段。

問題2：非均勻過渡。文本embedding空間不能保證是均勻的，導致在選擇均勻分布點進行插值序列時出現非平滑的視覺過渡。出現在生成模型訓練數據集中頻率較高的條件將主導插值路徑。為了驗證，我們在Stable Diffusion模型的訓練中，對一個罕見概念和一個常見概念之間進行插值。以從“氧氣面罩”，一個罕見概念，到“獅子”的插值序列為例，大多數插值圖像受“獅子”的影響。

問題3：通常質量低。插值的文本embedding可能與現有文本不對應，這意味著它可能與原始文本embedding的分布存在顯著偏差，從而導致圖像質量較低。這種現象也存在于從“一個蘋果”到“一張床”的插值中，插值圖像的保真度與原始圖像相比降低。下圖2中從第二列到第五列的插值路徑中的圖像質量下降就是一個例子。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

進行了大量實驗來進一步驗證這些觀察結果。這些問題激發了我們提出相應方法來解決這些問題。

方法論

為了解決前面提到的問題，提出了相應的方法來解決其中的每一個問題：

插值注意力以增強感知一致性；
融合自注意力以增強保真度；
引入Beta先驗以增強平滑度。
超越對特定插值序列質量的定量評估指標，我們將插值重新建立在文本描述上，并提出用提示引導插值。

下面分別詳細描述每個組件。

內/外插值注意力機制

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

其中，Attn是注意力層。將這種插值稱為內插值注意力，因為它分別對關鍵詞和值進行插值。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

在注意力機制內部的插值可以以兩種形式實現：要么通過內插值注意力，如方程9所示，要么通過插值注意力過程的輸出（上下文向量），我們稱之為外插值注意力。后者可以形式化為:

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

方程9中的內插值注意力和方程10中的外插值注意力之間的區別在于它們的值向量：方程9利用相同的注意力映射來處理V1和Vm，而方程10使用來自不同來源的值向量的不同注意力映射。展示了每種方法在前面中不同指標上的優勢。觀察到內部注意力插值更適合進行概念插值，而外部注意力插值更適合進行空間插值。在附錄A中通過數學歸納和更多的定性結果展示了這兩種實現之間的差異。在實踐中，將AID-O作為默認選擇，并建議僅在有提示指導的情況下使用AID-I。

融合自注意力

簡單地應用注意力插值可以極大提高效率。然而，插值序列仍然缺乏保真度，與前面提出的質量問題相呼應。我們假設原因是完全替換了自注意力機制，盡管自注意力被認為對生成圖像的質量至關重要。因此，我們將插值潛在變量的關鍵詞和值與自注意力機制進行了融合，通過串聯，將其納入到方程9和方程10中，從而實現了融合注意力插值。形式上，內插值注意力的融合版本可以表示為:

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

外插值注意力的融合版本可以表示為：

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

融合注意力插值顯著提高了一致性和保真度。

使用Beta先驗進行序列選擇

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

為了找到最佳的超參數α和β，在α和β上應用貝葉斯優化來優化生成的插值序列的一致性。

提示引導

我們的一個洞見是，考慮到兩個源圖像，插值路徑的假設空間實際上是龐大且多樣的，然而大多數插值方法提供了兩個源圖像之間的確定性路徑。這自然引出了一個問題，即如何控制我們想要的插值路徑。

注入引導提示作為條件。幸運的是，由于我們將插值機制納入原始的自注意力層中，我們不再需要依賴于沿著文本embedding的插值。相反，我們用引導提示的文本embedding替換插值圖像的原始文本embedding。假設從引導提示獲取的關鍵詞和值分別為Kg和Vg。通過提示進行引導是通過將原始的文本-圖像交叉注意力替換為：

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

在實踐中，用戶提供引導提示以選擇基于文本描述的插值路徑，如前面圖1（f）所示。令人驚訝的是，我們觀察到，引導提示的注意力插值使模型能夠生成一些原本不存在的組合場景（請參見下圖4中“飛機和鹿”的示例）。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

插值和引導之間的權衡的預熱步驟。我們觀察到，去噪的早期步驟對于確定生成圖像的空間布局至關重要。因此，可以通過設置預熱步驟的數量在插值效果和提示引導之間進行權衡。在進行了幾個預熱步驟之后，將注意力插值轉變為一個簡單的生成過程。

實驗

實驗設置

評估協議。根據一致性、平滑度和保真度來評估我們的方法，對于每個數據集的實驗，每次運行5次試驗，每次試驗運行N = 100次迭代。在每次迭代中，隨機選擇兩個條件，并生成大小為m = 7的插值序列。然后根據所有插值序列的平均值來評估插值方法。對于一致性和平滑度，遵循常規設置，并選擇VGG16來計算LPIPS。對于保真度，根據先前的文獻，使用谷歌v3 Inception模型來計算源圖像和插值圖像之間的FID。將所有迭代和試驗的平均值報告為最終結果。

推理配置。將 Stable Diffusion 1.4 作為基本模型來實現注意力插值機制。除了替換注意力模塊外，保持其他設置與原始模型相同。在所有實驗中，圖像大小為512x512，使用DDIM調度器進行生成，包括25個時間步長。

選擇配置。在對beta先驗中的α和β進行貝葉斯優化之前，將插值序列的平滑度設置為目標指標，將兩個超參數的范圍設置為[1,30]，使用9個固定探索，其中α和β從{20,25,30}中選擇，以及15次迭代進行優化。

數據集。使用來自各種數據集的語料庫來評估我們提出的框架在不同文本條件下的性能。

CIFAR-10：CIFAR-10數據集包括60,000個32x32的彩色圖像，分布在10個類別中。該數據集通常用于對分類算法進行基準測試。在我們的上下文中，使用類名作為提示來生成與特定類別相對應的圖像。CIFAR-10語料庫有助于評估我們的框架PAID在處理描述明確的簡短提示時的有效性。

LAION-Aesthetics：從更大的LAION-5B收集中抽樣了LAION-Aesthetics數據集，該數據集的美學評分超過6分，經過篩選，視覺質量很高。與CIFAR-10不同，該數據集為圖像提供了廣泛的真實標注，包括長篇且不太直接的描述。這些特點為基于文本的分析提供了更復雜的挑戰。我們使用該數據集來測試我們的框架在更具挑戰性的場景中的插值能力。

比較方法。據我們所知，唯一的相關方法是 [44]，該方法對實際圖像插值使用了文本embedding的線性插值。將其稱為文本embedding插值。此外，還與另一種方法進行比較，稱為去噪插值，該方法沿著去噪計劃進行插值。具體來說，給定提示A和提示B以及去噪步驟數N，對于插值系數t，我們在前?tN?步中使用提示A進行引導，并在其余步中使用提示B進行引導。在我們的框架內，基于內部注意力插值標記為"AID-I"和外部注意力插值標記為"AID-O"進行比較。

定性結果

對于定性分析，觀察到AID-I更傾向于在概念或風格上進行插值。另一方面，AID-O強烈增強了感知一致性，并鼓勵在圖像的空間布局中進行插值，如下圖5所示。即使在兩個非常長的提示之間進行插值，我們的方法也能夠實現直接而平滑的插值，保真度很高，如下圖6所示。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

定量結果

根據前面的評估協議定量評估我們的方法，如下表1所示。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

發現AID-O在所有評估指標上的性能都有顯著提高。雖然AID-I在平滑度方面表現最好，但AID-O在一致性方面有顯著提高（在CIFAR-10上為-20.3%，在LAION-Aesthetics上為-23.9%），并且在保真度方面也有顯著提高（在CIFAR-10上為-66.62，在LAION-Aesthetics上為-60.37）。觀察到AID-I的保真度不及AID-O，甚至不如去噪插值。然而，當與提示引導相結合時，AID-I的定性結果更好，在附錄D中展示了更多細節。我們建議在沒有提示引導時使用AID-O，在有提示引導時使用AID-I。

還觀察到，LAION-Aesthetics的結果通常比CIFAR-10差，因為長提示插值更具挑戰性。盡管如此，我們的方法與文本embedding插值相比仍然有很大的改進。

消融研究

對應用于CIFAR-10數據集的AID-O框架進行了消融研究，重點關注AID的三個主要設計元素：注意力插值、自注意力和使用beta先驗進行選擇，如表2所總結的那樣。需要注意的是，與自注意力的融合不能單獨運行；因此，它總是與注意力插值結合使用。

從下表2可以看出，beta先驗有助于增加平滑度。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

來自Beta先驗對平滑度的邊際貢獻分別為0.0464（文本embedding插值）、0.0671（與注意力插值一起）、0.1595（與融合注意力插值一起）。此外，注意力插值提高了一致性，將指標從0.3645降低到0.3201，與文本embedding插值相比有所改善。在與自注意力的融合的情況下，我們觀察到保真度有所提高，指標分別從101.89提高到52.51，從155.01提高到51.43。

顯然，雖然具有beta先驗的注意力插值（不與自注意力融合）在平滑度上實現了最佳表現，但代價是保真度較低，生成的圖像往往質量較差，如表2中定量展示的和圖7中定性展示的。

同樣地，盡管沒有 beta 先驗的 AID 實現了最佳的一致性結果，但在平滑度方面有過多的折衷（0.6236），如下圖7所示。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區

結論

本研究引入了一個新穎的任務：在擴散模型中進行條件插值，以及評估指標，包括一致性、平滑度和保真度。我們提出了一種新穎的方法，稱為AID，旨在在不同條件下生成圖像之間的插值。通過定性和定量分析，展示了這種方法在性能上顯著超越了基線，而且無需訓練。此外，介紹了PAID，這是一種擴展，允許用戶使用引導提示來選擇插值路徑。我們的方法無需訓練，拓展了生成模型插值的范圍，為各種應用提供了新的機會，例如組合生成、圖像編輯、數據增強和視頻插值。

擴散模型中進行條件插值？AID:無需訓練，保證一致、平滑和保真度(新加坡國立&南洋理工)-AI.x社區