組件可控個性化生成方法MagicTailor:生成過程可自由地定制ID
本文經AIGC Studio公眾號授權轉載,轉載請聯系出處。
文章提出了一種組件可控的個性化生成方法MagicTailor,旨在個性化生成過程中可以自由地定制ID的特定組件。
相關鏈接
論文閱讀:https://arxiv.org/pdf/2410.13370
項目主頁:https://correr-zhou.github.io/MagicTailor/
論文介紹
文生圖(T2I)擴散模型的最新進展使得能夠根據文本提示創建高質量圖像,但它們仍然難以生成對特定視覺概念進行精確控制的圖像。現有的方法可以通過學習參考圖像來復制給定的概念,但它們缺乏對概念中的各個組件進行細粒度定制的靈活性。
在本文中,介紹了組件可控的個性化,這是一項新穎的任務,它允許用戶在個性化視覺概念時重新配置特定組件,從而突破了 T2I 模型的界限。由于兩個主要障礙,這項任務特別具有挑戰性:語義污染,即不需要的視覺元素破壞個性化概念;語義不平衡,導致概念和組件的學習不成比例。
為了克服這些挑戰,本文設計了MagicTailor,這是一個創新框架,利用動態掩碼退化(DM-Deg)來動態擾亂不需要的視覺語義和雙流平衡(DS-Bal),為所需的視覺語義建立平衡的學習范例。廣泛的比較、消融和分析表明,MagicTailor 不僅在這項具有挑戰性的任務中表現出色,而且在實際應用中也具有重大前景,為更細致和更具創意的圖像生成鋪平了道路。
方法介紹
MagicTailor 使用參考圖像作為輸入,通過低秩自適應 (LoRA) 微調 T2I 擴散模型,以學習目標概念和組件,從而能夠生成將組件無縫集成到概念中的圖像。 我們引入了動態掩碼退化(DM-Deg),這是一種動態干擾不需要的視覺語義的新技術。這種方法有助于抑制模型對不相關視覺細節的敏感性,同時保留整體視覺上下文,從而有效減輕語義污染。 此外,我們采用雙流平衡(DS-Bal),一種旨在平衡視覺語義學習的雙流學習范式,來解決語義不平衡的問題。在線去噪 U-Net 執行樣本最小-最大優化,而動量去噪 U-Net 應用選擇性保留正則化,確保更忠實的個性化。
組件可控的個性化
(a) 個性化插圖,展示文本到圖像 (T2I) 擴散模型如何從給定的參考圖像中學習和再現視覺概念。 (b) 組件可控個性化的圖示,描繪了一項新制定的任務,旨在在個性化過程中修改視覺概念的特定組件。 (c) MagicTailor 生成的示例圖像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一種新穎的框架,采用 T2I 擴散模型來實現組件可控的個性化。
組件可控個性化的挑戰
語義污染
- 不受歡迎的視覺元素可能會無意中擾亂個性化概念。
- 簡單的屏蔽策略是無效的,會導致意外的合成;
- 我們的 DM-Deg 有效地抑制了不需要的視覺語義,防止了這種污染。
語義不平衡
- 同時學習概念和組件可能會導致不平衡,導致概念或組件扭曲(這里我們介紹前者的情況)。
- 我們的 DS-Bal 確保平衡學習,提高個性化表現。
定性結果
我們展示了由 MagicTailor 生成的圖像以及針對各個領域的個性化的 SOTA 方法。 MagicTailor 總體上實現了良好的文本對齊、強大的身份保真度和高生成質量。
定量結果
我們將 MagicTailor 與基于自動指標(CLIP-T、CLIP-I、DINO 和 DreamSim)和用戶研究(人類對文本對齊、身份保真度和生成質量的偏好)的 SOTA 個性化方法進行比較。最佳結果以粗體標記。 MagicTailor 可以在這項具有挑戰性的任務中取得卓越的性能。