成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!

發布于 2025-1-22 11:50
瀏覽
0收藏

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

論文鏈接:https://arxiv.org/pdf/2501.09503
項目鏈接:https://aigcdesigngroup.github.io/AnyStory/

亮點直擊

  • 提出了一種統一的單主體和多主體個性化框架,稱為AnyStory。該框架在個性化單主體和多主體時實現了一致性,同時遵循文本提示;
  • 引入了一種增強的主體表示編碼器,由簡化的輕量級 ReferenceNet 和 CLIP 視覺編碼器組成,能夠對一般主體進行高保真細節編碼;
  • 提出了一種解耦的實例感知router模塊,能夠準確感知和預測主體的隱空間條件區域,從而實現對單個或多個主體的靈活和可控的個性化生成;
  • 實驗結果表明,本方法在保持主體細節的真實性、對齊文本描述以及個性化多個主體方面表現出色。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

總結速覽

解決的問題:

  • 生成具有特定主體的高保真個性化圖像面臨挑戰,尤其是在涉及多個主體的情況下。
  • 在不犧牲主體保真度的情況下,處理多個主體的個性化生成。

提出的方案:

  • 提出 AnyStory,一種統一的單主體和多主體個性化框架。
  • 采用“編碼-route”的方式來建模主體個性化問題。
  • 在編碼步驟中,利用 ReferenceNet 和 CLIP 視覺編碼器實現高保真編碼。
  • 在route步驟中,使用解耦的實例感知主體router,準確感知和預測隱空間中主體的位置。

應用的技術:

  • ReferenceNet:一種簡化的輕量級圖像編碼器,用于高保真細節編碼。
  • CLIP 視覺編碼器:用于增強主體表示的編碼。
  • 解耦的實例感知route模塊:用于準確感知和預測主體的隱條件區域,實現靈活和可控的個性化生成。

達到的效果:

  • 在保留主體細節、對齊文本描述和個性化多個主體方面表現優異。
  • 實現了單主體和多主體個性化的一致性,同時遵循文本提示。

方法

AnyStory,這是一種在文本到圖像生成中實現單主體和多主體個性化的開創性方法。首先回顧擴散模型的背景,然后詳細介紹兩個提出的關鍵組件,即增強的主體編碼器和解耦的實例感知主體router。最后,介紹本文的訓練方案。方法的框架如下圖 2 所示。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

預備知識

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

增強的主體表示編碼

在開放領域中個性化主體圖像,同時確保對主體細節和文本描述的忠實度,仍然是一個未解決的問題。一個關鍵的挑戰在于主體信息的編碼,這需要在最大限度地保留主體特征的同時,保持一定的編輯能力。當前主流方法[16, 39, 44, 46, 56, 66, 69, 70]主要依賴CLIP視覺編碼器來編碼主體。然而,由于對比圖像-文本訓練范式的原因,CLIP的特征主要是語義性的,并且分辨率較低(通常為224 × 224),因此在提供主體詳細信息方面存在局限性。替代方法[19, 41, 48, 64]結合了特定領域的專家模型,如面部編碼器[12, 29],以增強主體身份表示。盡管這些方法取得了一定的成功,但它們在其領域內是有限的,不能擴展到一般主體。


為了解決這些問題,引入了ReferenceNet,一種強大而多功能的圖像編碼器,與CLIP視覺編碼器一起編碼主體。ReferenceNet利用變分自編碼器(VAE)來編碼參考圖像,然后通過與U-Net相同架構的網絡提取其特征。它具有三個顯著優勢:(1)支持更高分辨率的輸入,從而能夠保留更多的主體細節;(2)其特征空間與去噪U-Net對齊,便于U-Net在不同深度和尺度上直接提取主體特征;(3)使用預訓練的U-Net權重進行初始化,這些權重具有豐富的視覺先驗,并在學習一般主體概念方面表現出良好的泛化能力。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

ReferenceNet 編碼。 在原始實現中ReferenceNet 采用與 U-Net 相同的架構,包括帶有文本條件注入的交叉注意力塊。然而,由于在我們的任務中 ReferenceNet 僅用作視覺特征提取器,并不需要文本條件注入,我們跳過了所有交叉注意力塊,從而減少了參數數量和計算復雜度(見下表 1)。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

解耦的實例感知主體route

注入主體條件時需要仔細考慮注入位置,以避免影響不相關的目標。以前的方法 [37, 39, 56, 66, 69, 70] 通常通過簡單的注意力模塊將條件特征注入隱空間。然而,由于軟加權機制,這些方法容易出現語義泄漏 [10, 67],導致主體特征的混合,特別是在生成外觀相似的實例時。一些方法 [18, 34, 38, 44, 46, 65, 71] 引入了預定義的布局mask來解決這個問題,但這限制了它們的實際應用。UniPortrait [23] 提出了一種router,可以自適應地感知并限制主體條件的影響區域;然而,其route特征完全與主體特征耦合,這限制了route模塊的能力;此外,它沒有考慮主體條件對背景的影響。在本研究中,我們提出了一種解耦的實例感知主體route模塊,可以準確有效地將主體特征route到相應區域,同時減少對不相關區域的影響。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

實例感知route正則化損失。 為了促進router學習并區分不同實例的主體,我們引入了一種實例感知route正則化損失。損失函數定義為:

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

route引導的主體信息注入。 對于CLIP編碼的主體表示,我們使用解耦的交叉注意力 [69] 將其整合到U-Net中,但增加了route引導的定位約束:

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

關于ReferenceNet編碼的主體特征的注入,采用原始參考注意力,但增加了由route圖引導的額外注意力mask。稍微濫用一下符號,這個過程可以表示為:

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

訓練

根據 UniPortrait,AnyStory 的訓練過程分為兩個階段:主體編碼器訓練階段和router訓練階段。

主體編碼器訓練:訓練主體 QFormer、ReferenceNet 及注意力塊中的對應鍵和值矩陣。ReferenceNet 使用預訓練的 UNet 權重進行初始化。為了避免主體特征的細粒度編碼導致的復制粘貼效應,收集了大量配對數據,這些數據在保持主體身份一致的同時展示了背景、姿勢和視角的變化。這些數據來自于圖像、視頻和 3D 渲染數據庫,并由 Qwen2-VL 進行標注。具體來說,圖像(約 41 萬)和視頻(約 52 萬)數據主要來自以人為中心的數據集,如 DeepFashion2 和人類舞蹈視頻,而 3D 數據(約 560 萬)則來自 Objaverse ,其中從七個不同角度渲染的物體圖像作為配對數據。在訓練過程中,這些配對中的一張圖像用作參考輸入,而另一張圖像則在不同的背景下展示相同的主體身份,作為預測目標。此外,還對參考圖像應用了包括隨機旋轉、裁剪和零填充在內的數據增強技術,以進一步防止主體過擬合。該階段的訓練損失與原始擴散損失相同,如公式(1)所示。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

實驗

設置

使用 stable diffusion XL 作為基礎模型。所使用的 CLIP 圖像編碼器是 OpenAI 的 clip-vit-huge-patch14。主體 QFormer 和route QFormer 都由 4 層組成。ReferenceNet 的輸入圖像分辨率為 512×512。所有訓練在 8 個 A100 GPU 上進行,批大小為 64,使用 AdamW優化器,學習率為 1e-4。為了促進無分類器引導的采樣 [25],在訓練時對 10% 的圖像去掉 CLIP 主體條件。在推理過程中,使用 25 步 EDM采樣和 7.5 的無分類器引導比例,并使用來自 huggingface 的 RealVisXL V4.0 模型以實現更逼真的圖像生成。

ReferenceNet 編碼器的效果

下圖 3 展示了 ReferenceNet 編碼器的有效性,相較于僅使用 CLIP 視覺編碼器,它增強了主體細節的保留。然而,顯然僅使用 ReferenceNet 并不能產生令人滿意的結果。事實上,在大量測試中發現,ReferenceNet 編碼器只能實現主體細節的對齊,而不能引導主體生成。仍然需要依賴與文本embedding良好對齊的 CLIP 編碼特征來觸發主體生成。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

解耦實例感知router的效果

下圖 4 展示了所提出router的有效性,它可以有效避免多主體生成中主體之間的特征混合。此外,觀察到在單主體設置中使用router也提高了生成圖像的質量,特別是在圖像背景中。這是因為router限制了主體條件的影響區域,從而減少了主體特征固有的隱偏差(例如,從大量 3D 渲染數據中學習到的簡單白色背景偏好)對生成圖像質量的影響。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

上圖 5 可視化了擴散模型在去噪過程中不同時間步的route圖。這些結果表明,所提出的router可以在去噪過程中準確感知并定位每個主體條件的影響區域。顯示的route圖類似于圖像分割mask,表明通過去噪 U-Net 和訓練好的router可以實現基于參考圖像的引導圖像分割的潛力。此外,如前文所述,盡管router主要在以人為中心的數據集上訓練,但它對一般主體(如上圖 5 中的卡通恐龍)具有良好的泛化能力。我們將此歸因于 CLIP 模型強大的泛化能力和高度壓縮的單token route特征。


下圖 6 展示了將router建模為微型圖像分割解碼器的有效性。與通過簡單點積獲得的粗略route圖相比,通過輕量級mask交叉注意模塊細化后的route圖可以更準確地預測每個主體的隱位置。

面向統一的單、多主體個性化文生圖框架!阿里通義發布AnyStory!-AI.x社區

示例生成

在上圖 1、上圖 7 和上圖 8 中,展示了本方法的更多結果,顯示了其在保持主體細節、對齊文本提示以及實現多主體個性化方面的卓越性能。

結論

AnyStory是一種針對單主體和多主體個性化生成的統一方法。AnyStory 利用通用且強大的 ReferenceNet 以及 CLIP 視覺編碼器來實現高保真度的主體編碼,并采用解耦的、實例感知的route模塊,以靈活和準確地注入單/多主體條件。實驗結果表明,本方法在保留主體細節、與文本描述對齊以及多主體個性化方面表現出色。


局限性和未來工作。 目前,AnyStory 無法為圖像生成個性化背景。然而,在序列圖像生成中保持圖像背景的一致性同樣重要。未來,將擴展 AnyStory 的控制能力,從主體域擴展到背景域。此外,AnyStory 生成的主體中仍然存在復制粘貼效應,我們計劃通過數據增強和使用更強大的文本到圖像生成模型來進一步緩解這一問題。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/PtPwtABgfHCBQwP8144oGA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色在线免费视频 | 在线免费看毛片 | 在线一区视频 | 中文字幕中文字幕 | 中文区中文字幕免费看 | 一区二区三区四区免费视频 | 欧美一级免费 | 视频一区二区中文字幕日韩 | www.日韩av.com| 国产日产精品一区二区三区四区 | 99re国产视频 | 国产免费自拍 | 欧美日韩在线视频一区 | 一区二区免费 | 国产成人精品一区二区三区视频 | 国产色婷婷| 欧美在线视频网站 | 男女爱爱福利视频 | 午夜免费在线电影 | 欧美日韩亚洲一区 | 日韩在线观看一区二区三区 | 亚洲一区二区三区在线视频 | 成人不卡 | 中文字幕在线一区 | 日本免费一区二区三区四区 | 91成人免费观看 | 性国产xxxx乳高跟 | 99久久国产免费 | 亚洲精品久久久久avwww潮水 | 日本精品久久久久久久 | 天天草视频 | 狠狠操网站 | 成人av在线播放 | 欧美日韩三级 | 污视频免费在线观看 | 亚洲高清av在线 | 亚洲精品字幕 | 日韩在线播放av | 91成人在线视频 | 日韩在线国产精品 | h在线免费观看 |