DiT迎來真·一致性之王!CharaConsist雙殺角色變形&背景撕裂:跨場景換裝不崩人設
論文鏈接:https://arxiv.org/pdf/2507.11533
Git鏈接:https://github.com/Murray-Wang/CharaConsist
在固定背景下生成一致的角色
不同背景下一致的角色生成
故事生成
亮點直擊
- 現有的一致性生成方法采用了相對粗略的任務設定,主要關注于相似角色在不同場景中的過渡,而缺乏對角色細節和背景環境的細粒度一致性。
- CharaConsist,利用點追蹤和掩碼提取自動感知關鍵特征,從而實現細粒度一致性,使其非常適合實際應用場景。
- CharaConsist是第一個基于 DiT 模型的無需訓練的一致性文本生成圖像(T2I)方法。它無需額外訓練或附加模塊,能夠高效利用擁有數十億參數的大型 DiT 模型。提出的基于 DiT 的點追蹤和掩碼提取技術也可作為圖像編輯等相關任務的有效工具。
總結速覽
解決的問題
- 背景一致性差:現有的無需訓練一致性生成方法在背景細節上缺乏一致性,限制了其在真實場景中的應用。
- 前景角色一致性不足:當角色發生大幅動作變化時,角色的身份特征和服飾細節容易出現不一致。
- 任務設定粗略:現有方法對一致性問題的建模較為粗糙,主要關注角色在不同場景中的相似性,忽視了對角色細節和背景環境的細粒度控制。
提出的方案
- CharaConsist 方法:針對上述問題,提出了一種無需訓練的一致性文本生成圖像方法 ——CharaConsist,專為 DiT(Diffusion Transformer)架構設計。
應用的技術
- 點追蹤注意力機制(Point-Tracking Attention):自動感知并跟蹤圖像中的關鍵點,以保持前景角色的身份和細節一致性。
- 自適應 Token 合并(Adaptive Token Merge):優化視覺信息的表達與處理,提升整體一致性效果。
- 前景與背景的解耦控制:分別建模和控制前景角色與背景環境,實現更精細的生成控制。
- 基于 DiT 的一致性生成:首次將一致性生成方法與 DiT 模型結合,利用其強大的建模能力,無需額外訓練或附加模塊。
達到的效果
- 前景與背景的細粒度一致性:CharaConsist 能夠在連續或離散鏡頭中保持角色形象和背景環境的一致性。
- 無需訓練即可高效應用:方法無需額外訓練,直接適配大規模 DiT 模型,具備較強的泛化能力和實用性。
- 高質量視覺輸出:結合 DiT 模型的強大生成能力,CharaConsist 可生成高質量、視覺一致性強的圖像序列。
- 廣泛的實際應用潛力:適用于角色動畫、虛擬人生成、圖像編輯等多種實際應用場景。
方法
首先在簡要回顧并分析了用于提升一致性的核心技術——圖像間注意力(inter-image attention),以及基礎模型 FLUX.1 的一些技術細節。然后介紹我們提出的方法 CharaConsist。下圖4展示了本文方法的整體框架及各個組成部分的示意圖。
預備知識
圖像間注意力(Inter-image Attention)在以往的工作中,圖像間注意力是一項用于提升一致性的核心技術。在一批圖像的生成過程中,圖像間注意力通過將相鄰圖像的 key 和 value 拼接到每張圖像的自注意力過程中,從而實現圖像間的信息共享。該過程通過增強圖像之間的關聯,有助于在生成序列中保持連貫性。
盡管注意力模塊具有全局感受野,直接應用圖像間注意力仍難以捕捉保持一致性所需的對應關系。為了直觀地展示這一點,如下圖3所示,使用 UNet 架構的 SDXL 和基于 DiT 的 FLUX.1 生成內容相似但布局不同的圖像,并計算其平均圖像間注意力權重。以查詢點的坐標為原點,我們將每張圖像劃分為等面積的同心圓環,并計算每個圓環內的注意力權重總和。結果表明,隨著與查詢點距離的增加,對應區域的注意力權重總和顯著下降。
這一現象表明模型存在局部性偏置(locality bias),傾向于將更多的注意力權重分配給空間上更接近的區域,而非語義上更相關的區域。因此,模型難以在布局變化較大的情況下保持一致性,無法捕捉到距離較遠但上下文上重要的特征。
如下圖2所示,以往方法中觀察到的不一致性,很大程度上可能源于這種局部性偏置。當不同圖像中的角色發生大幅度動作變化或出現在圖像中不同位置時,它們之間的相對距離可能顯著增加。結果是,圖像間注意力對這些遠距離區域的響應強度較低,難以獲取足夠的信息以保證一致性。
本文方法從點追蹤(point tracking)開始,并引入多種技術以緩解位置偏移的影響,從而在不同圖像布局下實現更穩健且一致的表示。
FLUX.1
FLUX.1 是一個基于 DiT 的隱空間文本生成圖像(T2I)模型,其核心架構為多模態 Transformer。它包含兩種類型的 Transformer 塊:雙重塊(double block)和單一塊(single block),這兩種塊都以文本和圖像 token 作為輸入。
雖然這兩種塊在結構和參數分配上有所不同,但其核心機制保持一致:拼接后的文本和圖像 token 進行全局注意力操作。作為一個無需訓練的方法,我們主要關注模型內部的注意力過程。因此,忽略這兩種塊之間的結構差異,并將它們的注意力過程統一表述為如下形式:
CharaConsist
Pipeline定義將一致性生成流程分為兩個部分:身份圖像生成(identity image generation)和幀圖像生成(frame images generation)。身份圖像生成遵循原始的生成過程,無需修改,并在特定時間步從特定層中存儲中間變量,如 key、value 和注意力輸出。幀圖像隨后通過訪問這些存儲的變量與身份圖像實現一致性。
與以往方法需要并行生成至少 2 到 4 張圖像以獲取身份信息不同,CharaConsist 僅需一張身份圖像。這一優勢主要得益于我們方法中的追蹤機制,它能夠有效利用單張圖像中的身份信息,從而無需通過并行處理進行增強。因此,該方法顯著減少了額外的 GPU 內存開銷。
點匹配(Point Matching)
點匹配的目標是為幀圖像中的每個點在身份圖像中找到語義上對應的點,從而指導后續的注意力和 token 融合過程。例如,幀圖像中角色的面部特征應與身份圖像中的面部特征對齊。
以往工作 DIFT 表明,可以通過測量擴散模型中 UNet 在特定時間步的中間特征之間的相似性來確定語義對應關系。然而,這種方法在 FLUX.1 中并不奏效。本文測試了 FLUX.1 中中間 Transformer 塊和注意力層輸出的余弦相似度。對于 Transformer 塊的輸出,發現匹配點始終固定在相同位置,無法捕捉語義對應關系。相比之下,對于注意力層的輸出,匹配點在不同層、時間步和樣本之間波動顯著,導致匹配不穩定且不準確。
盡管不同層之間的匹配關系差異較大,但相似度分布卻表現出一致的特征?;谶@一觀察,我們對同一時間步中不同層的相似度得分進行平均,公式如下:
本文僅在文本序列的實際長度范圍內應用 Softmax 操作,以避免圖像鍵和特殊文本鍵 “<s>” 的影響。在這里,我們觀察到與點匹配過程類似的問題:每個詞對應的注意力權重在不同層之間存在顯著波動。為了解決這一問題,分別在前景和背景文本序列內對注意力權重進行平均,并在不同層之間也進行平均。通過比較這些平均注意力權重,我們得出魯棒的前景掩碼,表示為:
點追蹤注意力
在獲得點匹配關系和前景掩碼之后,引入點追蹤注意力。首先提取幀圖像中的前景 token 索引,以及在身份圖像中匹配的 token 索引:
與背景相關的操作是可選的,取決于用戶是否希望保持背景不變。然后注意力過程表示為:
自適應 Token 合并
盡管位置嵌入的重新編碼通過注意力增強了一致性,但由于位置重排,可能會破壞 token 的局部幾何關系。此外,部分 token 可能無法完美匹配,導致信息丟失??紤]到注意力輸出是所有值的加權和,并攜帶更多全局信息,它有助于彌補此類信息丟失。因此,我們引入了自適應 token 合并,將幀圖像的注意力輸出與身份圖像的注意力輸出進行插值。
在此過程中,首先從身份圖像和幀圖像中提取對應前景圖像 token 的片段注意力輸出。然后根據點匹配關系重新排列身份圖像的注意力輸出,并執行插值:
實驗
實驗設置
評估數據集
本工作聚焦于角色和環境的一致性生成,而現有基準缺乏適用于該任務的特征。因此,我們使用 GPT-4 生成了一系列適用于該應用場景的 T2I 提示詞。指示 GPT-4 以“[環境], [角色], [動作].”的格式創建多個提示詞組,組內內容不同。我們提出了兩個評估任務:背景保持和背景切換。在前者中,“[環境]”和“[角色]”在一組提示中保持一致,而“[動作]”變化;在后者中,僅“[角色]”保持不變。每組包含 5-8 個提示。對于這兩類任務,我們各生成了超過 200 個 T2I 提示。
對比方法
對比方法包括無需訓練的一致性生成方法 StoryDiffusion、ConsiStory,以及依賴訓練的身份參考方法 IP-Adapter、PhotoMaker。上述生成的提示詞對所有方法共享。對于身份參考方法,首先利用提示中的“[角色]”部分生成角色頭像,然后使用 RetinaFace 裁剪人臉區域,作為輸入的參考人臉圖像。
評估指標
參考前人工作,引入 CLIP 文本-圖像相似度(CLIP-T)來衡量圖像與文本提示之間的對齊程度,以及成對 CLIP 圖像相似度(CLIP-I)來衡量整圖一致性。為了更好地評估本工作的特性,我們引入了三個額外指標。首先,引入解耦的 CLIP-I,分別稱為 CLIP-I-fg 和 CLIP-I-bg,用于分別評估前景和背景的一致性。使用 SAM 對每張生成圖像進行前景分割,并分別計算遮罩前景和遮罩背景圖像的 CLIP 相似度。還引入身份相似度(ID Sim),通過 RetinaFace 和 FaceNet 計算人臉嵌入相似度,以評估身份一致性。此外,引入圖像質量分數(IQS)和圖像美學分數(IAS),使用 Q-Align 評估生成圖像的質量。
實驗結果
定性結果
在下圖5中,展示了 CharaConsist 及所有對比方法在背景保持和背景切換任務上的結果。可以觀察到,所有對比方法在服裝一致性方面存在不同程度的問題。在背景保持任務中,這些方法只能生成相似場景,但無法保證完全一致。而在背景切換任務中,這些方法僅關注前景主體,導致偏離了獨特的動作提示,例如圖5中的“電話”、“卡通人物”以及前面圖2 中的“拍照”都缺失了。此外,我們在圖6中展示了點和掩碼的結果,以直觀展示我們點匹配和掩碼提取方法的有效性。更多定性結果見補充材料。
定量結果
如下表1所示,與一致性生成方法相比,在兩個評估任務中,本文的CharaConsist 在大多數一致性指標上表現更優,特別是在 CLIP-I-bg 和 ID Sim 上。這些結果強有力地驗證了我們方法在保持角色和場景一致性方面的優勢。唯一的例外是在背景切換任務中,由于環境變化,我們方法在整圖 CLIP-I 得分較低是合理的。與身份參考方法相比,CharaConsist 在 CLIP-I-fg 和 CLIP-I-bg 得分上具有顯著優勢,表明本文的方法能夠保留角色服裝和背景環境的細節。雖然本文的方法在身份相似度上不如這些方法(這是它們的訓練目標),但這并不矛盾。作為一種無需訓練的方法,CharaConsist 可以通過解決服裝和環境一致性問題,補充身份參考生成方法的不足。
此外,有一個問題是本文的方法相比其他方法具有較低的 CLIP-T 得分。這在很大程度上可能是由于基礎模型帶來的領域差異,因為 FLUX.1 的原始結果也顯示出較低的 CLIP-T,這在消融實驗和表 2 中有更詳細的說明。
消融實驗
由于本工作基于與基線方法不同的基礎模型,進行了消融實驗,以分析基礎模型本身以及我們提出的方法的影響。對于我們的 CharaConsist 和對比方法,我們評估了對應基礎模型的原始結果以及一致性方面的提升。ConsiStory、StoryDiffusion 和我們的 CharaConsist 分別采用的基礎模型是 SDXL、RealVisXL4.0 和 FLUX.1。下表2中的結果表明,首先,與 FLUX.1 的原始結果相比,本文的方法顯著提升了一致性,表明其有效性。其次,本文的方法在一致性方面實現了最大的提升。這表明表 1 中展示的優越一致性結果并非由于新的基礎模型。相反,盡管 FLUX.1 在圖像質量方面帶來了顯著提升,其原始結果在幾乎所有指標上與 RealVisXL4.0 相比表現出更低的一致性。此外,FLUX.1 的 CLIP-T 得分顯著低于其他兩個基礎模型,這可能是由于視覺風格上的領域差異所致。
結論與討論
CharaConsist,用于增強一致性的文本到圖像生成。通過使用點跟蹤注意力和自適應 token 合并來解決局部性偏差,它在角色動作變化下確保了細粒度的一致性。它還支持可控的背景保持或切換,拓展了實際應用場景。
局限性
作為一種專注于無需訓練的一致性生成方法,CharaConsist能夠生成與文本提示一致的內容,但無法將輸入身份作為參考。一個理想的解決方案是將訓練好的身份參考模型與本文的方法結合,其中前者可以提供接受輸入身份并保持更高人臉相似度的能力,而本文的方法可以彌補它們在背景環境和角色服裝一致性方面的不足。這是我們未來探索的重要方向。
本文轉自AI生成未來 ,作者:AI生成未來
