南開提出1Prompt1Story,無需訓練,可通過單個連接提示實現一致的文本到圖像生成
(1Prompt1Story)是一種無訓練的文本到圖像生成方法,通過整合多個提示為一個長句子,并結合奇異值重加權(SVR)和身份保持交叉注意力(IPCA)技術,解決了生成圖像中身份不一致的問題,同時保持了文本描述的精準對齊。
相關鏈接
- 論文:https://arxiv.org/abs/2501.13554
- 代碼:https://github.com/byliutao/1Prompt1Story
- 主頁:https://byliutao.github.io/1Prompt1Story.github.io/
論文介紹
論文出了一種無需訓練的方法1Prompt1Story,通過單個連接提示實現一致的文本到圖像生成。我們的方法可以應用于所有基于文本嵌入的文本到圖像模型。此外,它還支持多字符生成、ControlNet 引導生成和個性化生成逼真的圖像。
方法
(a):1Prompt1Story 的整體流程。將身份提示和框架提示合并為一個提示,然后應用奇異值重加權 (SVR) 和身份保留交叉注意力 (IPCA) 來生成身份一致的圖像。(b):在SVR期間,首先增強表達集X_exp的語義信息(紅色箭頭),然后迭代地削弱抑制集X_sup的語義(藍色箭頭)。(c):在IPCA中將 K_tilde 與 K_bar 連接,將 V_tilde 與 V_bar 連接,以提高身份一致性。
(左):1Prompt1Story 可以與 ControlNet 集成,以實現空間控制,從而實現一致的角色生成。(右):此外,提出的方法還可以與其他方法(例如 PhotoMaker)結合使用,以實現真實圖像個性化,同時提高身份一致性。
結果展示
現有方法(上)在 T2I 生成一致性方面面臨挑戰。SDXL 和 Juggernaut-X-v10 等 T2I 模型在生成的圖像之間經常表現出明顯的身份不一致。盡管包括 IP-Adapter 和 ConsiStory 在內的最新方法已經提高了身份一致性,但它們失去了生成的圖像與相應輸入提示之間的一致性。提出的方法的其他結果(下)展示了卓越的一致性,同時不損害文本和圖像之間的一致性。
對幀提示順序的魯棒性。使用同一組幀提示但不同的順序,提出的方法 1Prompt1Story 可以一致地生成具有統一標識的圖像。
多主題故事生成。通過在身份提示中定義多個主題,提出的方法生成具有多個角色的圖像,每個圖像都保持良好的身份一致性。
與不同的基礎模型相結合。