生成一個好故事!StoryDiffusion:一致自注意力和語義運動預測器必不可少(南開&字節(jié)) 精華
文章:https://arxiv.org/pdf/2405.01434
主頁:https://storydiffusion.github.io/
對于最近基于擴散的生成模型來說,在一系列生成的圖像中保持一致的內容,尤其是那些包含主題和復雜細節(jié)的圖像,是一個重大挑戰(zhàn)。本文提出了一種新的自注意力計算方式,稱為一致性自注意力,顯著提升了生成圖像與流行的預訓練基于擴散的文本到圖像模型之間的一致性,并以zero-shot方式增強。
為了將本文的方法擴展到長視頻生成,進一步引入了一種新穎的語義空間時間運動預測模塊,稱為語義運動預測器。它被訓練用于估計語義空間中兩個提供的圖像之間的運動條件。該模塊將生成的圖像序列轉換為具有平滑過渡和一致主題的視頻,與僅基于潛在空間的模塊相比,尤其是在長視頻生成的情況下,穩(wěn)定性顯著提高。
通過將這兩個新穎組件合并,該框架,被稱為StoryDiffusion,可以用一致的圖像或視頻描述基于文本的故事,涵蓋豐富多樣的內容。所提出的StoryDiffusion在視覺故事生成方面進行了開創(chuàng)性的探索,呈現(xiàn)了圖像和視頻的展示,希望這能激發(fā)更多從架構修改的角度進行的研究。
一致性自注意力效果展示
介紹
最近,擴散模型發(fā)展迅速,并展示了在內容生成方面的非凡潛力,如圖像,3D目標和視頻。通過廣泛的預訓練和先進的架構,擴散模型在生成高質量圖像和視頻方面表現(xiàn)優(yōu)于先前基于生成對抗網絡(GAN)的方法。
然而,生成具有一致主題(例如,具有一致身份和服裝的角色)的圖像和視頻來描述故事對現(xiàn)有模型仍然具有挑戰(zhàn)性。常用的以圖像為參考的IP-Adapter可以用于指導擴散過程以生成類似于它的圖像。然而,由于強大的引導作用,對文本提示生成的內容的可控性降低了。
另一方面,最近的最先進的身份保持方法,如InstantID,側重于身份的可控性,但無法保證服裝和情景的一致性。因此,本文的目標是找到一種方法,能夠生成具有一致性角色的圖像和視頻,無論是身份還是服裝,同時最大限度地提高用戶通過文本提示的可控性。
保持不同圖像之間(或在視頻生成的情境下的幀之間)的一致性的一種常見方法是使用時間模塊。然而,這需要大量的計算資源和數(shù)據(jù)。與此不同,本文的目標是探索一種輕量級方法,具有最小的數(shù)據(jù)和計算成本,甚至以zero-shot方式進行。
正如之前的研究所證明的,自注意力是建模生成視覺內容整體結構的最重要模塊之一。本文的主要動機是,如果我們能夠使用參考圖像來指導自注意力的計算,那么兩個圖像之間的一致性應該會顯著提高。由于自注意力權重是依賴于輸入的,因此可能不需要模型訓練或微調。遵循這個思路,本文提出了一致性自注意力,這是StoryDiffusion的核心,可以以zero-shot方式插入擴散骨干,取代原始的自注意力。
與標準的自注意力不同,后者是在表示單個圖像的tokens上操作的(如下圖2(d)所示),一致性自注意力在tokens相似性矩陣計算和tokens合并過程中包含了從參考圖像中采樣的參考tokens。采樣的tokens共享相同的Q-K-V權重,因此不需要額外的訓練。
如下圖1所示,使用一致性自注意力生成的圖像成功地保持了在身份和服裝方面的一致性,這對于敘事非常重要。
直觀地說,一致性自注意力在批處理中建立了圖像之間的相關性,在身份和服裝等方面生成了一致的角色圖像。這使能夠為敘事生成主題一致的圖像。
對于給定的故事文本,首先將其分成幾個提示,每個提示對應一個單獨的圖像。然后,本文的方法可以生成高度一致的圖像,有效地敘述一個故事。為了支持長篇故事的生成,還沿著時間維度實現(xiàn)了一致性自注意力以及一個滑動窗口。這消除了峰值內存消耗與輸入文本長度的依賴關系,從而使生成長篇故事成為可能。
為了將生成的故事幀流式傳輸成視頻,進一步提出了語義運動預測器,它可以在語義空間中預測兩個圖像之間的過渡。經驗性地發(fā)現(xiàn),在語義空間中預測運動比在圖像潛空間中的預測產生了更穩(wěn)定的結果。結合預訓練的運動模塊,語義運動預測器可以生成平滑的視頻幀,其質量顯著優(yōu)于最近的條件視頻生成方法,如SEINE和SparseCtrl。
貢獻總結如下:
- 提出了一種無需訓練且可即插即用的注意力模塊,稱為一致性自注意力。它可以保持生成圖像序列中角色的一致性,從而實現(xiàn)高文本可控性的敘事。
- 提出了一種新的運動預測模塊,可以在語義空間中預測兩個圖像之間的過渡,稱為語義運動預測器。它可以生成明顯更穩(wěn)定的長視頻幀,比最近流行的圖像條件方法(如SEINE和SparseCtrl)更容易擴展到分鐘級。
- 證明了本文的方法可以基于預定義的文本故事使用一致性自注意力和語義運動預測器生成長圖像序列或視頻,其中的運動由文本提示指定。新框架稱為StoryDiffusion。
相關工作
擴散模型
擴散模型迅速展示了其在生成逼真圖像方面的驚人能力,這也使它們在最近幾年主導了生成建模領域。通過利用深度去噪網絡,擴散模型通過迭代添加噪聲和去噪來建立噪聲分布與真實圖像分布之間的連接。早期的工作主要集中在無條件圖像生成方面,奠定了擴散模型的理論基礎。
隨后,為提高擴散模型的效率和性能,進行了各種努力。典型例子包括高效采樣方法、潛空間中的去噪、可控性。隨著基礎理論的探索,擴散模型逐漸受到歡迎,并在各個領域展示了強大的性能,如圖像生成、視頻生成、3D生成、圖像分割和低級別視覺任務。
可控文本到圖像生成
作為擴散模型應用的重要子領域,最近引起了人們的極大關注的文本到圖像生成,代表作有潛空擴散、DiT和Stable XL。此外,為增強文本到圖像生成的可控性,也出現(xiàn)了許多方法。其中,ControlNet和T2I-Adapter引入了控制條件,如深度圖、姿態(tài)圖像或素描,以指導圖像的生成。MaskDiffusion和StructureDiffusion專注于增強文本的可控性。還有一些工作控制生成圖像的布局。
ID保持是期望根據(jù)指定的ID生成圖像的熱門話題。根據(jù)是否需要測試時微調,這些工作可以分為兩大類。第一類僅需要對給定圖像的部分模型進行微調,例如Textual Inversion、DreamBooth和Custom Diffusion。另一類,例如IPAdapter和PhotoMaker,利用已在大型數(shù)據(jù)集上進行了預訓練的模型,允許直接使用給定圖像來控制圖像生成。與這兩種類型不同,我們專注于在多個圖像中保持主題一致性,以敘述一個故事。一致性自注意力是無需訓練且可插拔的,可以在批處理中建立圖像之間的連接,生成多個主題一致的圖像。
視頻生成
由于擴散模型在圖像生成領域的成功,視頻生成領域的探索也變得流行起來。由于文本是用戶可以指定的最直觀的描述符,基于文本的視頻生成受到了最多的關注。VDM是最早將2D U-Net從圖像擴散模型擴展到3D U-Net以實現(xiàn)視頻生成的方法之一。
由于視頻生成的計算成本顯著增加,后續(xù)的工作,如MagicVideo和Mindscope,引入了1D時間注意機制,通過基于潛空間擴散模型來降低計算量。在Imagen之后,Imagen Video采用了級聯(lián)采樣pipeline,通過多個階段生成視頻。Show-1也提出了一種多階段方法,以平衡生成質量和效率。
除了傳統(tǒng)的端到端文本到視頻(T2V)生成外,使用其他條件進行視頻生成也是一個重要的方向。這類方法使用其他輔助控制生成帶有其他輔助控制的視頻,例如深度圖、姿態(tài)圖、RGB圖像或其他引導運動視頻。與文本提示的歧義不同,引入這種條件信息增強了視頻生成的可控性。
本文的視頻生成方法專注于轉換視頻生成,預期生成具有給定起始幀和結束幀的視頻。典型的相關工作包括SEINE和SparseCtrl。SEINE在訓練中將視頻序列隨機mask作為視頻擴散模型的初始輸入,以使兩個幀之間的過渡預測成為可能。SparseCtrl引入了稀疏控制網絡,使用稀疏控制數(shù)據(jù)為每個幀合成相應的控制信息,從而指導視頻的生成。
然而,前述的過渡視頻生成方法僅依賴于圖像潛空間中的時間網絡進行中間內容的預測。因此,這些方法在復雜的過渡,如角色的大規(guī)模移動時通常表現(xiàn)不佳。StoryDiffusion旨在在圖像語義空間中進行預測以獲得更好的性能,并且可以處理更大的移動,將在實驗部分展示。
方法
本文的方法可以分為兩個階段,如前面圖2和下圖3所示。在第一階段中,StoryDiffusion利用Consistent Self-Attention以無需訓練的方式生成具有主題一致性的圖像。這些一致的圖像可以直接用于敘事,也可以作為第二階段的輸入。在第二階段,StoryDiffusion基于這些一致的圖像創(chuàng)建一致的過渡視頻。
無需訓練的一致圖像生成
本節(jié)介紹本文的方法如何以無需訓練的方式生成具有主題一致性的圖像。解決上述問題的關鍵在于如何在圖像批次內保持角色的一致性。這意味著需要在生成過程中在圖像批次內建立連接。
在重新審視擴散模型中不同注意機制的作用后,受到啟發(fā),探索利用自注意力來服務于圖像批次內的一致性,并提出了Consistent Self-Attention。將Consistent Self-Attention插入到現(xiàn)有的圖像生成模型中U-Net架構的原始自注意力的位置,并重復使用原始自注意力權重以保持無需訓練和可插拔性。
為了在批次內的圖像之間建立互動以保持主題一致性,Consistent Self-Attention從批次中的其他圖像特征中抽樣一些tokens Si。
考慮到配對的tokens,我們的方法在圖像批次中執(zhí)行自注意力,促進不同圖像特征之間的交互。這種類型的交互促進了模型在生成過程中對角色、面部和服裝的融合。盡管以簡單且無需訓練的方式,我們的一致自注意力可以高效生成主題一致的圖像,將在實驗中詳細展示。這些圖像用作說明以敘述復雜的故事,如前面圖2所示。為了更清晰地表達,還在下算法1中展示了偽代碼。
視頻生成的語義運動預測器
生成的主題一致圖像序列可以通過在相鄰圖像對之間插入幀來進一步細化為視頻。這可以被視為一個具有已知起始和結束幀條件的視頻生成任務。然而,在經驗上觀察到,最近的方法,如SparseCtrl和SEINE,在兩個圖像之間的差異較大時無法穩(wěn)定地連接兩個條件圖像。
這種限制源自它們完全依賴于時間模塊來預測中間幀,而這可能不足以處理圖像對之間的巨大狀態(tài)差異。時間模塊在每個空間位置上獨立操作像素,因此,在推斷中間幀時可能不充分考慮空間信息。這使得難以建模長和具有物理意義的運動。
為了解決這個問題,本文提出了語義運動預測器,它將圖像編碼成圖像語義空間中的向量,以捕獲空間信息,從而更準確地預測給定起始幀和結束幀之間的運動。
形式上,在擴散過程中,對于每個視頻幀特征Vi ,我們將文本嵌入T 和預測的圖像語義嵌入Pi連接起來。跨注意力計算如下:
通過將圖像編碼到圖像語義空間以整合空間位置關系,語義運動預測器能夠更好地建模運動信息,從而實現(xiàn)生成具有大運動的平滑過渡視頻。展示了顯著改進的結果和比較,可以在前面圖 1 和下圖 5 中觀察到。
實驗
實現(xiàn)細節(jié)
對于生成主題一致的圖像,由于無需訓練和可插拔的特性,在Stable Diffusion XL 和 Stable Diffusion 1.5 上實現(xiàn)我們的方法。為了與比較模型保持一致,使用相同的預訓練權重在 Stable-XL 模型上進行比較。所有比較模型都使用 50 步 DDIM 采樣,無分類器引導分數(shù)一直設置為 5.0。
對于生成一致的視頻,基于 Stable Diffusion 1.5 預訓練模型實現(xiàn)我們的方法,并結合預先訓練的時間模塊以實現(xiàn)視頻生成。所有比較模型采用 7.5 的無分類器引導分數(shù)和 50 步 DDIM 采樣。根據(jù)先前的方法,使用 Webvid10M數(shù)據(jù)集來訓練我們的過渡視頻模型。更多細節(jié)可以在補充材料中找到。
一致性圖像生成的比較
通過與最近的兩種 ID 保持方法 IP-Adapter和 Photo Maker進行比較,評估了本文生成主題一致圖像的方法。為了測試性能,使用 GPT-4 生成了二十個角色提示和一百個活動提示,描述了特定的活動。將角色提示與活動提示相結合,獲取測試提示的組。對于每個測試案例,使用三種比較方法生成一組圖像,描述一個人參與不同的活動,以測試模型的一致性。
由于 IP-Adapter 和 PhotoMaker 需要額外的圖像來控制生成圖像的 ID,首先生成一個角色圖像作為控制圖像。分別進行定性和定量比較,全面評估這些方法在一致圖像生成方面的性能。
定性比較。定性結果如下圖4所示。StoryDiffusion能夠生成高度一致的圖像,而其他方法,如IP-Adapter和PhotoMaker,可能會生成著裝不一致或文本可控性降低的圖像。
對于第一個示例,IP-Adapter方法生成了一個與文本提示“使用望遠鏡觀星”的圖像。PhotoMaker生成了與文本提示匹配的圖像,但在三個生成的圖像中著裝存在顯著差異。由StoryDiffusion生成的第三行圖像展示了一致的面部和著裝,并具有更好的文本可控性。對于最后一個示例“一位戴著超大耳機的專注玩家”,IP-Adapter在第二幅圖像中失去了“狗”,在第三幅圖像中失去了“紙牌”。PhotoMaker生成的圖像無法保持著裝。StoryDiffusion仍然生成了主題一致的圖像,具有相同的面部和相同的著裝,并符合提示中的描述。
定量比較。評估了定量比較,并在下表1中展示了結果。評估了兩個指標,第一個是文本-圖像相似度,它計算了文本提示和相應圖像之間的CLIP分數(shù)。第二個是角色相似度,它衡量了角色圖像的CLIP分數(shù)。StoryDiffusion在兩個定量指標上表現(xiàn)最好,這顯示了我們的方法在保持角色的同時符合提示描述方面的穩(wěn)健性。
過渡視頻生成的比較
在過渡視頻生成中,與兩種最先進的方法SparseCtrl和SEINE進行比較,以評估性能。隨機采樣了約1000個視頻作為測試數(shù)據(jù)集。使用三種比較模型來預測過渡視頻的中間幀,給定起始幀和結束幀,以評估它們的性能。
定性比較。進行了過渡視頻生成的定性比較,并在前面圖5中展示了結果。StoryDiffusion在生成平滑且物理合理的過渡視頻方面明顯優(yōu)于SEINE和SparseCtrl。
對于第一個示例,兩人在水下接吻,SEINE生成的中間幀已損壞,并直接跳轉到最終幀。SparseCtrl生成的結果具有稍好的連續(xù)性,但中間幀仍包含損壞的圖像,出現(xiàn)了許多手。然而,StoryDiffusion成功生成了具有非常平滑運動的視頻,沒有損壞的中間幀。
對于第二個示例,SEINE生成的中間幀有損壞的手臂。另一方面,SparseCtrl未能保持外觀的一致性。StoryDiffusion生成了連貫性很好的一致視頻。對于最后一個示例,我們生成的視頻遵循物理空間關系,而SEINE和SparseCtrl只在過渡中改變外觀。更多的視覺示例可以在補充材料中找到。
定量比較。遵循先前的研究,將本文的方法與SEINE和SparseCtrl進行了四項定量指標的比較,包括LPIPS-first,LPIPS-frames,CLIPSIM-first和CLIPSIM-frames,如下表2所示。
LPIPS-first和CLIPSIM-first衡量了第一幀和其他幀之間的相似性,反映了視頻的整體連續(xù)性。LPIPS-frames和CLIPSIM-frames衡量了相鄰幀之間的平均相似性,反映了幀之間的連續(xù)性。本文的模型在所有四個定量指標上表現(xiàn)優(yōu)于其他兩種方法。這些定量實驗結果顯示了我們的方法在生成一致且無縫過渡視頻方面的強大性能。
消融研究
用戶指定的ID生成。進行了一項消融研究,以測試具有用戶指定ID的一致圖像生成的性能。由于Consistent Self-Attention是可插拔且無需訓練的,將Consistent Self-Attention與PhotoMaker結合起來,為一致圖像生成提供了控制角色的圖像。結果如下圖6所示。在ID圖像的控制下,StoryDiffusion仍然可以生成符合給定控制ID的一致圖像,這強烈表明了我們的方法的可擴展性和即插即用性。
Consistent Self-Attention的采樣率。Consistent Self-Attention從批處理中的其他圖像中采樣tokens,并在自注意計算過程中將它們合并到鍵和值中。為了確定最佳采樣率,對Consistent Self-Attention的采樣率進行了消融研究。結果也顯示在圖6中。發(fā)現(xiàn)采樣率為0.3不能保持主題一致性,如上面圖6左側的圖像中左側的第三列所示,而較高的采樣率成功地保持了一致性。在實踐中,我們默認將采樣率設置為0.5,以對擴散過程產生最小影響并保持一致性。
用戶研究
我們進行了一項用戶研究,共有30位參與者。每位用戶被分配50個問題,以評估我們的主題一致圖像生成方法和過渡視頻生成方法的有效性。對于主題一致圖像生成,與最近的最先進方法IP-Adapter和PhotoMaker進行比較。在過渡視頻生成中,與最近的最先進方法SparseCtrl和SEINE進行比較。為了公平起見,結果的順序是隨機的,并且用戶不知道每個生成模型對應的結果。
用戶研究的實驗結果如下表3所示。無論是對于主題一致圖像生成還是過渡視頻生成,我們的模型都表現(xiàn)出了壓倒性的優(yōu)勢。用戶研究進一步確認了StoryDiffusion的卓越性能。
結論
StoryDiffusion,一種可以以無需訓練的方式生成一致圖像以進行敘事,并將這些一致圖像轉換成視頻的新方法。Consistent Self-Attention在多個圖像之間建立連接,以高效地生成具有一致面部和服裝的圖像。進一步提出了Semantic Motion Predictor,將這些圖像轉換成視頻,并更好地敘述故事。希望StoryDiffusion能夠激發(fā)未來可控圖像和視頻生成的努力。
本文轉自 AI生成未來 ,作者:Yupeng Zhou等
