成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<strike id="464eu"></strike>

<tfoot id="464eu"><delect id="464eu"></delect></tfoot>

<samp id="464eu"></samp>

<rt id="464eu"></rt>

<cite id="464eu"></cite>

<code id="464eu"></code>

<bdo id="464eu"><source id="464eu"></source></bdo>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設

發布于 2025-7-18 11:15

瀏覽

0收藏

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

論文鏈接：https://arxiv.org/pdf/2507.11533

Git鏈接：https://github.com/Murray-Wang/CharaConsist

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

在固定背景下生成一致的角色

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

不同背景下一致的角色生成

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

故事生成

亮點直擊

現有的一致性生成方法采用了相對粗略的任務設定，主要關注于相似角色在不同場景中的過渡，而缺乏對角色細節和背景環境的細粒度一致性。
CharaConsist，利用點追蹤和掩碼提取自動感知關鍵特征，從而實現細粒度一致性，使其非常適合實際應用場景。
CharaConsist是第一個基于 DiT 模型的無需訓練的一致性文本生成圖像（T2I）方法。它無需額外訓練或附加模塊，能夠高效利用擁有數十億參數的大型 DiT 模型。提出的基于 DiT 的點追蹤和掩碼提取技術也可作為圖像編輯等相關任務的有效工具。

總結速覽

解決的問題

背景一致性差：現有的無需訓練一致性生成方法在背景細節上缺乏一致性，限制了其在真實場景中的應用。
前景角色一致性不足：當角色發生大幅動作變化時，角色的身份特征和服飾細節容易出現不一致。
任務設定粗略：現有方法對一致性問題的建模較為粗糙，主要關注角色在不同場景中的相似性，忽視了對角色細節和背景環境的細粒度控制。

提出的方案

CharaConsist 方法：針對上述問題，提出了一種無需訓練的一致性文本生成圖像方法 ——CharaConsist，專為 DiT（Diffusion Transformer）架構設計。

應用的技術

點追蹤注意力機制（Point-Tracking Attention）：自動感知并跟蹤圖像中的關鍵點，以保持前景角色的身份和細節一致性。
自適應 Token 合并（Adaptive Token Merge）：優化視覺信息的表達與處理，提升整體一致性效果。
前景與背景的解耦控制：分別建模和控制前景角色與背景環境，實現更精細的生成控制。
基于 DiT 的一致性生成：首次將一致性生成方法與 DiT 模型結合，利用其強大的建模能力，無需額外訓練或附加模塊。

達到的效果

前景與背景的細粒度一致性：CharaConsist 能夠在連續或離散鏡頭中保持角色形象和背景環境的一致性。
無需訓練即可高效應用：方法無需額外訓練，直接適配大規模 DiT 模型，具備較強的泛化能力和實用性。
高質量視覺輸出：結合 DiT 模型的強大生成能力，CharaConsist 可生成高質量、視覺一致性強的圖像序列。
廣泛的實際應用潛力：適用于角色動畫、虛擬人生成、圖像編輯等多種實際應用場景。

方法

首先在簡要回顧并分析了用于提升一致性的核心技術——圖像間注意力（inter-image attention），以及基礎模型 FLUX.1 的一些技術細節。然后介紹我們提出的方法 CharaConsist。下圖4展示了本文方法的整體框架及各個組成部分的示意圖。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

預備知識

圖像間注意力（Inter-image Attention）在以往的工作中，圖像間注意力是一項用于提升一致性的核心技術。在一批圖像的生成過程中，圖像間注意力通過將相鄰圖像的 key 和 value 拼接到每張圖像的自注意力過程中，從而實現圖像間的信息共享。該過程通過增強圖像之間的關聯，有助于在生成序列中保持連貫性。

盡管注意力模塊具有全局感受野，直接應用圖像間注意力仍難以捕捉保持一致性所需的對應關系。為了直觀地展示這一點，如下圖3所示，使用 UNet 架構的 SDXL 和基于 DiT 的 FLUX.1 生成內容相似但布局不同的圖像，并計算其平均圖像間注意力權重。以查詢點的坐標為原點，我們將每張圖像劃分為等面積的同心圓環，并計算每個圓環內的注意力權重總和。結果表明，隨著與查詢點距離的增加，對應區域的注意力權重總和顯著下降。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

這一現象表明模型存在局部性偏置（locality bias），傾向于將更多的注意力權重分配給空間上更接近的區域，而非語義上更相關的區域。因此，模型難以在布局變化較大的情況下保持一致性，無法捕捉到距離較遠但上下文上重要的特征。

如下圖2所示，以往方法中觀察到的不一致性，很大程度上可能源于這種局部性偏置。當不同圖像中的角色發生大幅度動作變化或出現在圖像中不同位置時，它們之間的相對距離可能顯著增加。結果是，圖像間注意力對這些遠距離區域的響應強度較低，難以獲取足夠的信息以保證一致性。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

本文方法從點追蹤（point tracking）開始，并引入多種技術以緩解位置偏移的影響，從而在不同圖像布局下實現更穩健且一致的表示。

FLUX.1

FLUX.1 是一個基于 DiT 的隱空間文本生成圖像（T2I）模型，其核心架構為多模態 Transformer。它包含兩種類型的 Transformer 塊：雙重塊（double block）和單一塊（single block），這兩種塊都以文本和圖像 token 作為輸入。

雖然這兩種塊在結構和參數分配上有所不同，但其核心機制保持一致：拼接后的文本和圖像 token 進行全局注意力操作。作為一個無需訓練的方法，我們主要關注模型內部的注意力過程。因此，忽略這兩種塊之間的結構差異，并將它們的注意力過程統一表述為如下形式：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

CharaConsist

Pipeline定義將一致性生成流程分為兩個部分：身份圖像生成（identity image generation）和幀圖像生成（frame images generation）。身份圖像生成遵循原始的生成過程，無需修改，并在特定時間步從特定層中存儲中間變量，如 key、value 和注意力輸出。幀圖像隨后通過訪問這些存儲的變量與身份圖像實現一致性。

與以往方法需要并行生成至少 2 到 4 張圖像以獲取身份信息不同，CharaConsist 僅需一張身份圖像。這一優勢主要得益于我們方法中的追蹤機制，它能夠有效利用單張圖像中的身份信息，從而無需通過并行處理進行增強。因此，該方法顯著減少了額外的 GPU 內存開銷。

點匹配（Point Matching）

點匹配的目標是為幀圖像中的每個點在身份圖像中找到語義上對應的點，從而指導后續的注意力和 token 融合過程。例如，幀圖像中角色的面部特征應與身份圖像中的面部特征對齊。

以往工作 DIFT 表明，可以通過測量擴散模型中 UNet 在特定時間步的中間特征之間的相似性來確定語義對應關系。然而，這種方法在 FLUX.1 中并不奏效。本文測試了 FLUX.1 中中間 Transformer 塊和注意力層輸出的余弦相似度。對于 Transformer 塊的輸出，發現匹配點始終固定在相同位置，無法捕捉語義對應關系。相比之下，對于注意力層的輸出，匹配點在不同層、時間步和樣本之間波動顯著，導致匹配不穩定且不準確。

盡管不同層之間的匹配關系差異較大，但相似度分布卻表現出一致的特征?；谶@一觀察，我們對同一時間步中不同層的相似度得分進行平均，公式如下：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

本文僅在文本序列的實際長度范圍內應用 Softmax 操作，以避免圖像鍵和特殊文本鍵 “<s>” 的影響。在這里，我們觀察到與點匹配過程類似的問題：每個詞對應的注意力權重在不同層之間存在顯著波動。為了解決這一問題，分別在前景和背景文本序列內對注意力權重進行平均，并在不同層之間也進行平均。通過比較這些平均注意力權重，我們得出魯棒的前景掩碼，表示為：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

點追蹤注意力

在獲得點匹配關系和前景掩碼之后，引入點追蹤注意力。首先提取幀圖像中的前景 token 索引，以及在身份圖像中匹配的 token 索引：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

與背景相關的操作是可選的，取決于用戶是否希望保持背景不變。然后注意力過程表示為：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

自適應 Token 合并

盡管位置嵌入的重新編碼通過注意力增強了一致性，但由于位置重排，可能會破壞 token 的局部幾何關系。此外，部分 token 可能無法完美匹配，導致信息丟失?？紤]到注意力輸出是所有值的加權和，并攜帶更多全局信息，它有助于彌補此類信息丟失。因此，我們引入了自適應 token 合并，將幀圖像的注意力輸出與身份圖像的注意力輸出進行插值。

在此過程中，首先從身份圖像和幀圖像中提取對應前景圖像 token 的片段注意力輸出。然后根據點匹配關系重新排列身份圖像的注意力輸出，并執行插值：

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

實驗

實驗設置

評估數據集

本工作聚焦于角色和環境的一致性生成，而現有基準缺乏適用于該任務的特征。因此，我們使用 GPT-4 生成了一系列適用于該應用場景的 T2I 提示詞。指示 GPT-4 以“[環境], [角色], [動作].”的格式創建多個提示詞組，組內內容不同。我們提出了兩個評估任務：背景保持和背景切換。在前者中，“[環境]”和“[角色]”在一組提示中保持一致，而“[動作]”變化；在后者中，僅“[角色]”保持不變。每組包含 5-8 個提示。對于這兩類任務，我們各生成了超過 200 個 T2I 提示。

對比方法

對比方法包括無需訓練的一致性生成方法 StoryDiffusion、ConsiStory，以及依賴訓練的身份參考方法 IP-Adapter、PhotoMaker。上述生成的提示詞對所有方法共享。對于身份參考方法，首先利用提示中的“[角色]”部分生成角色頭像，然后使用 RetinaFace 裁剪人臉區域，作為輸入的參考人臉圖像。

評估指標

參考前人工作，引入 CLIP 文本-圖像相似度（CLIP-T）來衡量圖像與文本提示之間的對齊程度，以及成對 CLIP 圖像相似度（CLIP-I）來衡量整圖一致性。為了更好地評估本工作的特性，我們引入了三個額外指標。首先，引入解耦的 CLIP-I，分別稱為 CLIP-I-fg 和 CLIP-I-bg，用于分別評估前景和背景的一致性。使用 SAM 對每張生成圖像進行前景分割，并分別計算遮罩前景和遮罩背景圖像的 CLIP 相似度。還引入身份相似度（ID Sim），通過 RetinaFace 和 FaceNet 計算人臉嵌入相似度，以評估身份一致性。此外，引入圖像質量分數（IQS）和圖像美學分數（IAS），使用 Q-Align 評估生成圖像的質量。

實驗結果

定性結果

在下圖5中，展示了 CharaConsist 及所有對比方法在背景保持和背景切換任務上的結果。可以觀察到，所有對比方法在服裝一致性方面存在不同程度的問題。在背景保持任務中，這些方法只能生成相似場景，但無法保證完全一致。而在背景切換任務中，這些方法僅關注前景主體，導致偏離了獨特的動作提示，例如圖5中的“電話”、“卡通人物”以及前面圖2 中的“拍照”都缺失了。此外，我們在圖6中展示了點和掩碼的結果，以直觀展示我們點匹配和掩碼提取方法的有效性。更多定性結果見補充材料。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

定量結果

如下表1所示，與一致性生成方法相比，在兩個評估任務中，本文的CharaConsist 在大多數一致性指標上表現更優，特別是在 CLIP-I-bg 和 ID Sim 上。這些結果強有力地驗證了我們方法在保持角色和場景一致性方面的優勢。唯一的例外是在背景切換任務中，由于環境變化，我們方法在整圖 CLIP-I 得分較低是合理的。與身份參考方法相比，CharaConsist 在 CLIP-I-fg 和 CLIP-I-bg 得分上具有顯著優勢，表明本文的方法能夠保留角色服裝和背景環境的細節。雖然本文的方法在身份相似度上不如這些方法（這是它們的訓練目標），但這并不矛盾。作為一種無需訓練的方法，CharaConsist 可以通過解決服裝和環境一致性問題，補充身份參考生成方法的不足。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

此外，有一個問題是本文的方法相比其他方法具有較低的 CLIP-T 得分。這在很大程度上可能是由于基礎模型帶來的領域差異，因為 FLUX.1 的原始結果也顯示出較低的 CLIP-T，這在消融實驗和表 2 中有更詳細的說明。

消融實驗

由于本工作基于與基線方法不同的基礎模型，進行了消融實驗，以分析基礎模型本身以及我們提出的方法的影響。對于我們的 CharaConsist 和對比方法，我們評估了對應基礎模型的原始結果以及一致性方面的提升。ConsiStory、StoryDiffusion 和我們的 CharaConsist 分別采用的基礎模型是 SDXL、RealVisXL4.0 和 FLUX.1。下表2中的結果表明，首先，與 FLUX.1 的原始結果相比，本文的方法顯著提升了一致性，表明其有效性。其次，本文的方法在一致性方面實現了最大的提升。這表明表 1 中展示的優越一致性結果并非由于新的基礎模型。相反，盡管 FLUX.1 在圖像質量方面帶來了顯著提升，其原始結果在幾乎所有指標上與 RealVisXL4.0 相比表現出更低的一致性。此外，FLUX.1 的 CLIP-T 得分顯著低于其他兩個基礎模型，這可能是由于視覺風格上的領域差異所致。

DiT迎來真·一致性之王！CharaConsist雙殺角色變形&背景撕裂：跨場景換裝不崩人設-AI.x社區

結論與討論

CharaConsist，用于增強一致性的文本到圖像生成。通過使用點跟蹤注意力和自適應 token 合并來解決局部性偏差，它在角色動作變化下確保了細粒度的一致性。它還支持可控的背景保持或切換，拓展了實際應用場景。

局限性

作為一種專注于無需訓練的一致性生成方法，CharaConsist能夠生成與文本提示一致的內容，但無法將輸入身份作為參考。一個理想的解決方案是將訓練好的身份參考模型與本文的方法結合，其中前者可以提供接受輸入身份并保持更高人臉相似度的能力，而本文的方法可以彌補它們在背景環境和角色服裝一致性方面的不足。這是我們未來探索的重要方向。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/EwbvqNSexs3q6KOSvuThjg??

標簽

已于2025-7-18 11:27:22修改

贊

收藏

回復

舉報

回復

相關推薦

揭秘大語言模型的判斷一致性挑戰

zhangyannni ? 5905瀏覽 ? 0回復
拋棄自回歸，連接一致性Diffusion和LLM！UCSD上交新作熱度緊追AF 3

duhorse ? 3136瀏覽 ? 0回復
AI生成3D主題樂園，角色建筑批量生成，風格保持一致 | SIGGRAPH 2024

Crystalcxt ? 3244瀏覽 ? 0回復
自我一致性提升大模型中的思維鏈推理能力

AIRoobt ? 6211瀏覽 ? 0回復
人工智能的一致性推理悖論

xuxiangda ? 3726瀏覽 ? 0回復
多智能體大模型協作中的角色不一致性：一致性、虛構性和模仿性

xuxiangda ? 3701瀏覽 ? 0回復
360發布FancyVideo:通過跨幀文本指導實現動態且一致的視頻生成SOTA！

angel ? 2912瀏覽 ? 0回復
小紅書開源StoryMaker：個性化圖像生成模型，實現角色一致性與背景變化的完美結合

angel ? 7612瀏覽 ? 0回復
復旦&智象開源CAT-Diffusion，語義視覺雙一致

angel ? 2671瀏覽 ? 0回復
人工智能與人類情感的交匯點：一致性評估方法的探索

xuxiangda ? 6533瀏覽 ? 0回復
中科大重磅開源StableV2V：專注于「人機交互一致性」的視頻編輯方法

angel ? 3126瀏覽 ? 0回復
字節&上交&北大開源StoryTeller：生成一致性高的長視頻描述

angel ? 3052瀏覽 ? 0回復
即插即用，無縫集成各種模型，港科大&螞蟻等發布Edicho：圖像編輯一致性最新成果！

angel ? 2748瀏覽 ? 0回復
艾倫圖靈研究所最新成果：多智能體博弈中的可糾正性和一致性

xuxiangda ? 3640瀏覽 ? 0回復
LMEDR對話模型：引入自然語言推理數據提升對話模型的連貫性和一致性

arnoldzhw ? 2511瀏覽 ? 0回復
多模態MLLM都是怎么實現的—如何保持text2video的連續一致性

熵減AI ? 1503瀏覽 ? 0回復
字節提出一致性視頻生成方法Phantom：通過跨模態對齊生成主題一致的視頻，超多應用場景

AIGCStudio ? 1098瀏覽 ? 0回復
給 Cursor 也裝上 Memory Bank，節省包月請求，提高代碼一致性

凝固的雨_1 ? 1698瀏覽 ? 0回復
清華GenWorld：用“物理一致性”讓虛假視頻無處遁形！

zhangyannni ? 1088瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

熱門推薦

修圖界ChatGPT誕生！JarvisArt：解放人類藝術創造力——用自然語言指揮200+專業工具 0回復

RAG：7個檢索增強生成技術的解析（含實現代碼） 0回復

重磅！英偉達宣布H20芯片即將恢復對華銷售，并計劃推出全新GPU 0回復

RAG+大模型怎么玩？這八個項目2025年最火！ 0回復

我把DeepSeek微調參數扒光了，顯存和性能優化的秘密都在這 0回復

上一篇： 48塊GPU訓練對標千億參數SOTA！達摩院等發布基于LLM的自回歸視頻生成模型Lumos-1

社區精華內容

目錄

主站蜘蛛池模板：日日夜精品视频 | 色婷婷在线视频 | 成人欧美一区二区三区 | 91人人澡人人爽 | 在线观看黄色 | 国产伦精品一区二区三区四区视频 | 综合一区 | 亚洲综合三区 | 狠狠艹 | 日本韩国欧美在线观看 | 免费精品 | 日韩中文字幕在线视频观看 | 亚洲a视频| 97精品国产97久久久久久免费 | 日韩一区二区三区在线 | 国产在线一区二区 | 久久亚洲欧美日韩精品专区 | 羞羞视频免费观看入口 | 久久高清精品 | 91av视频在线免费观看 | 欧美黄a | av性色全交蜜桃成熟时 | 亚洲+变态+欧美+另类+精品 | 精品久久久精品 | 一区二区三区免费 | 羞视频在线观看 | 亚洲一级二级三级 | 亚洲天堂日韩精品 | 97精品国产 | 国产精品不卡 | 国产高清久久久 | 午夜影院官网 | 国产欧美精品区一区二区三区 | 一区二区三区在线 | 中文二区 | 成年人在线 | 中文字幕成人在线 | 免费成人国产 | 国产精品69毛片高清亚洲 | 九九九国产 | 久久成人免费视频 |

<rt id="kcume"><delect id="kcume"></delect></rt>

<table id="kcume"><dl id="kcume"></dl></table>

<rt id="kcume"><delect id="kcume"></delect></rt>

<button id="kcume"><input id="kcume"></input></button>