ICLR 2025 | One Prompt One Story!基于單個prompt實現免訓練身份一致圖像生成
文章鏈接:https://arxiv.org/abs/2501.13554
GitHub代碼:https://github.com/byliutao/1Prompt1Story
項目主頁:https://byliutao.github.io/1Prompt1Story.github.io/
亮點直擊
- 首次分析了語言模型維持固有上下文一致性的能力,能夠在一個提示中讓多個幀的描述天然指代同一主體身份。?
- 基于上下文一致性特性,提出了一種新穎的免訓練方法——One Prompt One Story,用于實現一致的文本到圖像生成。更具體地,進一步提出了提示加權(SVR)和交叉注意一致性(IPCA)技術,以改善文本與圖像之間的對齊和主體一致性,使得每個幀提示能夠在單個提示內獨立表達,同時保持與身份提示一致的身份。
- 方法在生成圖像時能夠在長篇敘述中有效維護身份一致性,并在擴展基準測試中表現優異。
效果先睹為快
下圖為One Prompt One Story的故事生成效果,在無需任何訓練下就可以實現具有ID一致的多幀圖片生成。
總結速覽
解決的問題
- 文本到圖像生成模型在支持故事敘述時難以保持身份一致性。
- 現有解決方案通常需要大量訓練或對模型架構進行修改,限制了其適用性。
提出的方案
- 提出“單提示單故事”(1Prompt1Story)作為一種無需訓練的方法,通過單一提示實現一致的文本到圖像生成。
應用的技術
- 奇異值重加權(Singular-Value Reweighting)
- 身份保持的交叉注意力(Identity-Preserving Cross-Attention)
達到的效果
- 改善了文本-圖像對齊和主體一致性。
- 在與現有方法的比較中,通過定量指標和定性評估展示了其在長篇敘述中保持身份一致性的有效性,并在擴展的ConsiStory+基準上進行了驗證。
研究背景
基于文本的圖像生成(T2I)旨在從文本提示中生成高質量的圖像,以展示不同場景中的各種主題。在動畫、故事敘述、視頻生成模型及其他敘事驅動的視覺應用中,T2I擴散模型在多種場景中保持主體一致性的能力至關重要。然而,現有模型在生成一致性主體方面仍然面臨挑戰。最近基于訓練的方法比如IP-Adapter, PhotoMaker通過訓練一個Image encoder來注入身份信息,但這通常需要耗費大量時間,依賴于大型數據集進行訓練或微調,并容易破壞基礎模型本身的生成能力和文體圖像一致性。
最近出現的無訓練方法比如Consistory, StoryDiffusion通過在推理階段的self-attention模塊中共享不同圖像之間的圖像特征來生成具有強一致性的圖像,取得了顯著成果,但這類方法往往需要大量的顯存資源或復雜的模塊設計,并未充分考慮長提示中身份信息自然保持的固有特性。在這樣的背景下,我們提出了一種名為“單提示單故事”(One-Prompt-One-Story)的新方法,通過將所有所需提示整合為一個更長的句子,實現了在無需額外調優或復雜設計情況下的圖像生成一致性。通過進一步引入的技巧以改善文本和圖像之間的對齊和主題一致性,1Prompt1Story在生成圖像時能夠有效維護長敘述中的身份一致性。
如下圖所示,現有方法在一致的文本到圖像生成方面面臨挑戰。像SDXL(Podell等,2023)和Juggernaut-X-v10(RunDiffusion,2024)這樣的T2I模型在生成的圖像中常常表現出明顯的身份不一致。盡管包括IP-Adapter和ConsiStory在內的最新方法已改善了身份一致性,但它們在生成圖像與相應輸入提示之間的對齊性上有所缺失。我們的方法1Prompt1Story(倒數第一列)所示的額外結果證明了在不影響文本與圖像之間對齊的情況下,能夠實現更優越的身份一致性生成。
單個prompt中的身份一致性分析
在文本嵌入一致性的分析中,本文比較了single prompt生成與multi prompt生成在語義距離上的差異,并通過t-SNE進行二維可視化。研究結果顯示,single prompt生成中的各幀提示的文本嵌入更加緊密,平均L2距離為46.42,而multi prompt生成的散布更廣,距離為71.25。這表明single prompt生成在語義信息和身份一致性方面更具優勢。
在圖像生成方面,采用multi prompt生成的SDXL模型往往會生成缺乏身份一致性的角色。相較之下,通過“Naive Prompt Reweighting(NPR)”方法,利用串聯的single prompt生成可以在圖像幀中保持主體身份的一致性。這種方法在身份一致性和文本-圖像對齊上比multi prompt生成表現更佳。此外,1Prompt1Story方法在保持身份特征一致性方面更加出色,通過DINO-v2提取的視覺特征并使用t-SNE進行可視化證實了這一點。這些發現也在ConsiStory+基準中得到驗證,表明single prompt生成在身份一致性上明顯優于multi prompt生成。這說明在生成內容時,通過采用合適的方法整合提示,可以顯著增強語義和身份的一致性。
上面左圖顯示了SDXL通過multi-prompt生成方法生成的圖像幀,而Naive Prompt Reweighting(NPR)和我們的方法則采用了single-prompt設置。中圖展示了通過DINO-v2提取的圖像特征,并通過t-SNE可視化。Naive Prompt Reweighting和1Prompt1Story相比SDXL模型表現出更一致的身份生成。右圖展示了我們擴展的ConsiStory+基準中生成圖像特征的平均距離統計,進一步確認了1Prompt1Story在身份一致性方面表現更加出色。
方法
Naive Prompt Reweighting
我們可以輕松實現一種基礎方法,稱為Naive Prompt Reweighting(NPR),以提高文本到圖像(T2I)生成的性能。通過放大需要表達的幀對應的prompt embedding的權重,縮小需要抑制的幀對應的prompt embedding的權重,生成的圖像即可具備一定的身份一致性。然而,這種方法存在兩個明顯的問題:一是生成的圖片之間背景較為相似,二是身份的一致性還不夠。這是因為在text encoder的因果掩碼機制下,每個單詞對應的embedding都會包含前面所有單詞的信息,而EOT則包含整個句子的信息。因此,NPR無法完全消除其它幀prompt的影響,并且簡單的權重調整也會對embedding中的身份信息產生干擾。為了解決這些問題,我們提出了SVR和IPCA方法,可以更有效地剔除無關幀的prompt信息影響,并提高身份一致性。
1Prompt1Story
如上圖所示,a區域展示了1Prompt1Story的整體流程。我們將身份提示和幀提示結合為一個single prompt,隨后應用奇異值重新加權(SVR)和身份保持交叉注意(IPCA)以生成身份一致的圖像。b區域描述了SVR的過程,我們首先增強需要表達的frame prompt的語義信息(紅色箭頭所示),然后迭代地弱化抑制需要抑制的frame prompt的語義信息(藍色箭頭所示)。c區域則展示了IPCA的過程,我們通過在cross attention中引入原始single prompt的embedding中的ID信息,與當前生成的幀的embedding feature進行融合(也就是對KV進行concat),從而提升身份一致性。
實驗
在上圖中,我們展示了定性比較結果。我們的1Prompt1Story方法在多個關鍵方面表現出色,包括身份保留、精確的幀描述以及物體姿態的多樣性。相比之下,其他方法在這些方面存有不足。具體來說,PhotoMaker、ConsiStory和StoryDiffusion在左側示例中生成的“龍”這一主體顯示出身份不一致的問題。此外,IP-Adapter傾向于生成姿態重復、背景相似的圖像,常常忽略幀提示的細節描述。ConsiStory在一致的文本到圖像生成過程中也表現出背景重復的現象。此外,我們還與其他方法進行了定量比較。我們的方法1Prompt1Story在CLIP-T(文本-圖像對齊)得分上接近于原始SDXL模型。在身份一致性方面(通過DreamSim指標衡量),我們的效果僅次于IP-Adapter。然而,IP-Adapter的高身份相似性主要是因為它傾向于生成姿態和布局相似的角色圖像。如下圖所示,我們的方法1Prompt1Story位于圖的右上角,顯示出在文本-圖像對齊和身份一致性方面都有良好的表現。
應用
1Prompt1Story不僅能夠身份一致性生成,還能與現有的基于控制的生成方法(如ControlNet (Zhang & Agrawala, 2023))進行結合。如上圖(左)所示,我們的方法通過ControlNet有效通過控制生成角色的姿態。此外,我們的方法可以與其他基于訓練的方法(如PhotoMaker (Li et al., 2023b))相結合,以提高圖像與真實參考圖像的身份一致性。通過采用我們的方法,所生成的圖像更貼近于真實身份,如上圖(右)所示。
結論與展望
在這篇論文中,我們通過利用自然語言中固有的上下文一致性特性,解決了文本到圖像(T2I)生成中保持主體一致性的關鍵挑戰。我們提出的“One-Prompt-One-Story(1Prompt1Story)”方法,采用單一擴展提示,確保在多樣化的場景中實現身份的一致性。通過整合奇異值重加權和身份保持交叉注意力等技術,該方法不僅優化了幀描述,還在注意力層面增強了一致性。實驗結果在ConsiStory+基準測試中顯示出1Prompt1Story優于當前最先進技術,展現了其在動畫、互動敘事和視頻生成中的應用潛力。我們的研究強調了在T2I擴散模型中理解上下文的重要性,為實現更連貫和敘述一致的視覺輸出開辟了新路徑。
附加消融實驗
本文轉自AI生成未來 ,作者:AI生成未來
