虛擬試衣&人像合成新SOTA!IMAGDressing-v1:ControlNet和IP-Adapter的最佳拍檔
文章鏈接:https://arxiv.org/pdf/2407.12705
github鏈接:https://imagdressing.github.io/
Demo試用:https://sf.dictdoc.site/
?
亮點直擊
- 為商家引入了一項新的虛擬試衣(VD)任務,并設計了一個綜合親和力測量指數(CAMI)用于評估生成圖像與參考服裝之間的一致性。
- 提出了IMAGDressing-v1,其中包括一個用于提取細粒度服裝特征的服裝UNet和一個帶有混合注意力模塊的去噪UNet,以平衡服裝特征與文本提示控制。在所有評估指標上表現優于其他SOTA方法。
- IMAGDressing-v1可以與其他擴展插件(如ControlNet和IP-Adapter)結合,以增強生成圖像的多樣性和可控性。
- 收集并發布了一個大規模的互動服裝配對(IGPair)數據集,包含超過30萬對服裝和穿戴圖像,供社區探索和研究。
目前已經通過使用潛在擴散模型的局部服裝修復實現了逼真的虛擬試衣(VTON),顯著提升了消費者的在線購物體驗。然而,現有的VTON技術忽略了商家全面展示服裝的需求,包括對服裝、面孔、姿勢和場景的靈活控制。
為了解決這一問題,本文定義了一個虛擬試衣(VD)任務,專注于生成具有固定服裝和可選條件的可自由編輯的人像。同時,設計了一個綜合親和力指標(CAMI),用于評估生成圖像與參考服裝之間的一致性。并提出了IMAGDressing-v1,它結合了一個捕捉CLIP語義特征和VAE紋理特征的服裝UNet。同時提出了一種混合注意力模塊,包括一個凍結的自注意力和一個可訓練的交叉注意力,將服裝UNet中的服裝特征整合到一個凍結的去噪UNet中,確保用戶可以通過文本控制不同的場景。IMAGDressing-v1可以與其他擴展插件(如ControlNet和IP-Adapter)結合,以增強生成圖像的多樣性和可控性。此外,為了解決數據缺乏的問題,發布了互動服裝配對(IGPair)數據集,包含超過300,000對服裝和穿戴圖像,并建立了一個標準的數據組裝流程。大量實驗表明,IMAGDressing-v1在各種受控條件下實現了最先進的人像合成性能。
與MagicClothing對比
與IP-Adapter結合
與IP-Adapter 和 ControlNet-Pose結合
支持不同場景的文本提示
支持在特定區域更換(實驗特性)
Demo展示:
方法
IMAGDressing-v1
如下圖3所示,提出的IMAGDressing-v1主要由一個可訓練的服裝UNet組成,其架構與Stable Diffusion V1.5(SD v1.5)相同。不同之處在于服裝UNet能夠同時捕捉來自CLIP的服裝語義特征和來自VAE的紋理特征,因為VAE可以近乎無損地重建圖像。下部是一個凍結的去噪UNet,類似于SD v1.5,用于在特定條件下對潛在圖像進行去噪。與SD v1.5不同,研究者們用混合注意力模塊替換了所有自注意力模塊,以更容易地整合來自服裝UNet的服裝特征,并利用現有的文本生成圖像功能通過文本提示進行場景控制。此外,IMAGDressing-v1包括一個用于編碼服裝特征的圖像編碼器和投影層,以及一個用于編碼文本特征的文本編碼器。
服裝UNet
混合注意力
訓練和推理
在推理階段,也根據公式7使用無分類器指導。
? Q: 如何支持自定義生成?如前面圖3所示,去噪UNet中的基本模塊權重是凍結的,這使得服裝UNet實際上成為一個適配器模塊,與其他社區適配器兼容,以實現自定義面部和姿勢生成。例如,要生成穿著給定服裝和一致姿勢的人的圖像,IMAGDressing-v1可以與ControlNet-Openpose結合。要生成穿著指定服裝的特定個人,IMAGDressing-v1可以與IP-Adapter集成。此外,如果需要同時指定姿勢和面部,IMAGDressing-v1可以與ControlNet-Openpose和IP-Adapter結合使用。此外,對于虛擬試衣(VTON)任務,IMAGDressing-v1也可以與ControlNet-Inpaint結合使用。
實驗
實施細節
實驗中,通過繼承Stable Diffusion v1.5中UNet的預訓練權重來初始化服裝UNet的權重,并微調其權重。本文的模型在IGPair數據集的配對圖像上以512×640的分辨率進行訓練。采用固定學習率為5e-5的AdamW優化器。模型在10個NVIDIA RTX3090 GPU上以批次大小為5進行訓練,共200,000步。在推理階段,圖像使用UniPC采樣器進行50步采樣,并將指導尺度w設置為7.0。
主要比較
將IMAGDressing-v1與四種最新的(SOTA)方法進行比較:Blip-Diffusion,Versatile Diffusion,Versatile Diffusion,以及MagicClothing。
定量結果
如下表2所示,由于Blip-Diffusion、Versatile Diffusion和IP-Adapter并非專門設計的VD模型,它們難以提取細粒度的服裝特征并生成精確匹配文本、姿勢和服裝屬性的角色圖像。這導致其在多個指標上表現不佳。此外,這些模型與多個插件不兼容,因此無法計算CAMI-S指標。與MagicClothing相比,IMAGDressing-v1通過其圖像編碼器分支捕捉更多細節服裝特征,并采用混合注意力機制。這種機制在保留原有文本編輯和生成能力的同時,整合了額外的服裝特征。因此,IMAGDressing-v1在所有評估指標上表現優于其他SOTA方法。
定性結果
下圖4展示了IMAGDressing-v1與SOTA方法的定性結果對比,包括非特定條件和特定條件生成的結果。在圖4(a)中,在非特定條件下,BLIP-Diffusion 和Versatile Diffusion未能忠實地再現服裝紋理。雖然IP-Adapter保持了服裝的整體外觀,但無法很好地保留細節,更重要的是,未能準確遵循文本提示。MagicClothing與文本條件高度一致;然而,它在保留服裝整體外觀和細節(如印刷文字或顏色)方面表現不佳。相比之下,IMAGDressing-v1不僅遵循文本提示,還保留了細粒度的服裝細節,在VD任務中表現出色。本文的方法支持自定義文本提示場景,如圖4(a)的最后三行所示。此外,圖4(b)展示了在特定條件下的定性結果。觀察到,IMAGDressing-v1在涉及給定姿勢、面部或兩者的場景中顯著優于MagicClothing。IMAGDressing-v1生成的結果表現出更優越的紋理細節和更逼真的外觀。這表明IMAGDressing-v1與社區適配器的兼容性增強,提升了生成圖像的多樣性和可控性。
消融研究
各組件的有效性。下表3展示了一項消融研究,以驗證所提出的圖像編碼器分支(IEB)和混合注意力(HA)模塊的有效性。這里,A0(基礎)表示沒有IEB和HA的設置。觀察到使用IEB的A1在所有指標上都有所提升,表明IEB有效地捕捉到了語義服裝特征。此外,A2超越了A1,表明IEB和HA的結合進一步提升了定量結果。
此外,下圖5提供了定性比較。A0未能在具有復雜紋理的圖像中充分捕捉服裝特征(第二行)。盡管IEB(A1)部分解決了這個問題,但將IEB直接注入去噪UNet會導致與主模型特征沖突,導致服裝細節模糊(第三行)。因此,HA模塊(A2)通過調整服裝UNet中服裝細節的強度來提高圖像保真度(第四行),這與本文的定量結果一致。
潛在應用
下圖7展示了IMAGDressing-v1在虛擬試衣(VTON)中的潛在應用。通過將IMAGDressing-v1與ControlNet-Inpaint結合并遮罩服裝區域,實現了VTON。結果表明,IMAGDressing-v1可以實現高保真的VTON,展示了顯著的潛力。
結論
盡管最近使用潛在擴散模型在VTON方面取得了顯著進展,增強了在線購物體驗,但它們仍然無法讓商家全面展示服裝,并靈活控制面部、姿勢和場景。為了彌補這一差距,本文引入了虛擬試衣(VD)任務,旨在生成在可選條件下穿著固定服裝的可編輯人像。本文提出的IMAGDressing-v1采用了服裝UNet和混合注意力模塊,整合服裝特征,通過文本實現場景控制。它支持像ControlNet和IP-Adapter這樣的插件,以提供更大的多樣性和可控性。此外,研究者們發布了包含超過300,000對服裝和穿著圖像的IGPair數據集,提供了一個強大的數據組裝流程。廣泛的實驗驗證表明,IMAGDressing-v1在受控人像合成方面達到了業界領先的性能水平。
本文轉自 AI生成未來 ,作者:Fei Shen等
