CVPR 2025 | 電商退貨率或將腰斬!VTON 360突破3D虛擬試衣天花板:無死角虛擬換裝 精華
文章鏈接: https://arxiv.org/pdf/2503.12165
項目鏈接:https://scnuhealthy.github.io/VTON360
亮點直擊
- 一種新穎的3D虛擬試衣(VTON)方法,即VTON 360,能夠從任意視角實現高保真度的虛擬試衣。
- 利用3D模型與其渲染的多視角2D圖像之間的等價性,將3D VTON重新定義為2D VTON的擴展,確保多視角下的一致性結果。具體而言,引入了多項新技術,包括:(i)偽3D姿態表示;(ii)多視角空間注意力機制;以及(iii)多視角CLIP嵌入。這些創新增強了傳統2D VTON模型,使其能夠生成多視角且3D一致的結果。
- 在兩個大型真實數據集以及來自電子商務平臺的真實服裝圖像上進行的大量實驗結果證明了本文方法的有效性。
效果速覽
總結速覽
解決的問題
- 2D VTON的局限性:現有的2D虛擬試衣(VTON)技術在表示與視角相關的特征方面存在固有局限性,無法支持高保真度的多視角渲染。
- 3D VTON的挑戰:現有的3D VTON方法在實現高保真度和支持任意視角渲染方面仍面臨挑戰,尤其是在服裝的幾何一致性和紋理保真度方面。
- 數據獲取成本高:早期的3D VTON方法依賴昂貴的3D掃描設備和物理存在的人體/服裝,限制了其在實際應用中的實用性。
- 多視角信息缺失:現有的基于圖像的3D VTON方法由于輸入圖像(通常是正面)缺乏多視角信息,難以重建高質量的多視角服裝模型。
提出的方案
- VTON 360方法:通過擴展2D VTON模型,引入多視角服裝和與服裝無關的人體圖像作為輸入,確保多視角下的3D一致性。
- 偽3D姿態表示:使用從SMPL-X 3D人體模型導出的法線圖來表示偽3D姿態,捕捉細粒度的表面方向細節,提供跨視角的幾何一致性。
- 多視角空間注意力機制:設計了一種多視角空間注意力機制,建模不同視角特征之間的相關性,通過“相關性”矩陣來建模不同輸入視角之間的關系。
- 多視角CLIP嵌入:提出了多視角CLIP嵌入,增強了2D VTON方法中使用的服裝CLIP嵌入,加入相機信息,促進網絡學習與特定視角相關的特征。
應用的技術
- 2D VTON模型擴展:將2D VTON模型擴展為支持多視角輸入,包括前后視角的服裝圖像和從隨機方位角采樣的多視角與服裝無關的人體圖像。
- SMPL-X 3D人體模型:利用SMPL-X 3D人體模型生成法線圖,用于偽3D姿態表示。
- 多視角空間注意力機制:通過設計多視角空間注意力機制,建模不同視角特征之間的相關性。
- 多視角CLIP嵌入:將相機信息融入CLIP嵌入,增強網絡對特定視角特征的學習能力。
達到的效果
- 高保真度3D VTON:在Thuman2.0和MVHumanNet數據集上的大量實驗表明,VTON 360方法能夠實現高保真度的3D VTON,并支持任意視角渲染。
- 多視角一致性:通過引入多視角輸入和偽3D姿態表示,確保了多視角下的3D一致性。
- 實際應用驗證:通過在電子商務平臺的服裝上進行測試,驗證了該方法的有效性和通用性。
方法
本文的方法利用3D模型與其渲染的多視角2D圖像之間的等價性,實現高保真度、任意視角的3D虛擬試衣(VTON)。具體而言,如圖2所示,給定輸入的3D人體模型和服裝圖像,本文的方法:
- 將3D模型渲染為多視角2D圖像;
- 將3D VTON定義為在這些渲染視角上一致且統一的2D VTON過程;
- 通過使用現有的3D重建方法將編輯后的圖像重建為3D模型,確保從任意視角觀看時的視覺一致性和精確的服裝對齊。其中,第二步至關重要,因為現有的2D VTON方法缺乏3D知識,無法生成具有3D一致性的多視角圖像。
為了解決這一挑戰,本文提出了多項新技術,為典型的2D VTON網絡 賦予了生成3D一致性結果的能力。該網絡基于隱空間擴散模型,并使用高斯潑濺(Gaussian Splatting)作為3D表示。
2D VTON框架回顧
具有3D一致性的多視角2D VTON
為了使上述2D VTON模型能夠生成多視角且3D一致的結果,對其設計提出了以下新穎的改進:
相應地,將三個組件連接起來作為Main UNet的增強輸入:
實驗
實驗設置
數據集:本文在兩個公開數據集上進行了實驗:Thuman2.0 和 MVHumanNet。Thuman2.0 包含 526 個重建的穿衣人體掃描,從中渲染多視角輸入圖像。其中 426 個樣本用于訓練,剩余的 100 個用于測試。為了進一步評估本文方法的有效性和魯棒性,還在 MVHumanNet 上進行了實驗。MVHumanNet 是一個大規模的多視角人體圖像數據集,涵蓋了多樣化的主體、日常服裝和運動序列。MVHumanNet 中的圖像使用 48 或 24 個相機的多視角系統捕獲。我們從該數據集中使用了 4,990 個主體,其中 4,790 個用于訓練,200 個用于測試。對于每個主體,我們從其整個運動序列中隨機選擇兩幀多視角圖像。雖然 MVHumanNet 直接提供了多視角圖像用于編輯和重建,但在 Thuman2.0 中為每個主體渲染均勻分布的視角以確保輸入的一致性。
基線方法:主要將本文的方法與三種現有方法進行比較:DreamWaltz、GaussCtrl和 TIP-Editor。DreamWaltz 是一種基于文本描述直接生成 3D 人體的方法,而 GaussCtrl 和 TIP-Editor 是基于輻射場的編輯方法。GaussCtrl 基于 Stable Diffusion,使用類似描述的提示編輯場景。TIP-Editor 接受文本和圖像提示。我們通過指定人體為編輯區域,并將目標服裝作為圖像提示來配置它。使用 ChatGPT 生成與服裝圖像對應的文本提示。
評估指標:為了定量評估,評估編輯后的人體與參考圖像之間的服裝對齊情況。根據 [63],計算參考圖像與編輯后的 3D 場景渲染的多視角圖像之間的平均 DINO 相似度。此外,為了評估多視角一致性,按照 [17] 計算 CLIP 方向一致性分數。由于實驗規模較大(重復的 3DGS 重建),從數據集中選擇了一部分樣本進行指標評估。從 Thuman 和 MVHumanNet 的測試集中,隨機抽取了 10 個人體掃描,每個人體掃描使用 6 個隨機選擇的服裝進行虛擬試衣。
本文還進行了一項用戶研究,邀請了 50 名參與者對本文的方法和三種基線方法的結果進行評分,評分標準包括整體“質量”和與參考圖像的“對齊”程度。每次評估包含兩個問題:(1) 哪種方法生成的編輯后 3D 人體質量最高?(2) 哪種方法與目標服裝的對齊最一致?參與者通過觀看隨機旋轉的視頻序列來評估 VTON 結果。
實現細節:在預處理階段,我們將多視角圖像裁剪到人體周圍的邊界框,并將其調整為 768 × 576 的分辨率。服裝圖像的前視圖和后視圖從相應的穿衣人體圖像中獲取。編輯后,我們將圖像填充回原始大小。Thuman2.0 和 MVHumanNet 數據集的數據處理流程相同。
與最先進方法的比較
定性評估:下圖5展示了本文的方法與基線方法的視覺對比。DreamWaltz 從文本提示重新生成3D穿衣人體,但難以準確保留身體和服裝的特征。GaussCtrl 由于不支持圖像提示,無法保持詳細的服裝紋理。雖然Tip-Editor 利用LoRA 進行個性化,但由于個性化概念在2D空間中是語義的,它在將兩個視角的服裝輸入一致映射到3D人體時遇到困難。相比之下,本文的方法有效地保留了復雜的服裝細節,如文字、條紋和標志。
定量評估:下表1展示了在Thuman2.0和MVHumanNet數據集上的CLIP方向一致性分數和DINO相似度的結果。本文的方法在DINO相似度上優于其他方法,清楚地展示了我們在服裝紋理保留方面的優勢。雖然我們的CLIP一致性結果與其他方法相當,但需要注意的是,這些方法結合了SDS損失,這在一定程度上平滑了3D空間中的人體表示。此外,其他方法的“更平坦”紋理也可能導致人為更高的一致性分數。此外,用戶研究表明,本文的方法在編輯后的3D人體質量和服裝細節對齊方面顯著優于基線方法。
使用電子商務服裝的視覺結果
下圖6展示了使用MVG數據集中的服裝進行的VTON結果,這些圖像來自YOOX NET-A-PORTER、淘寶和抖音等電子商務平臺,并在Thuman2.0數據集上訓練的模型。結果表明,本文的方法有效地保留了復雜的服裝細節和紋理。例如,它準確地保留了第一行中的條紋圖案、第二行中的可愛領帶以及第三行中的紐扣,突出了本文方法在處理多樣化和現實服裝項目時的魯棒性。
消融研究
在Thuman2.0數據集上進行了消融研究,如下表2和圖7所示,以評估本文提出的三個模塊在增強典型2D VTON網絡以具備3D一致性生成能力方面的影響。從使用DensePose的2D VTON基線 開始,我們逐步用偽3D姿態替換DensePose,加入多視角CLIP嵌入,并最終在最終配置中整合MVAttention。表2中的結果表明,每個模塊都對指標改進有所貢獻。圖7展示了一個多視角圖像編輯的示例。與2D VTON基線相比,偽3D姿態的引入顯著改善了肢體生成。比較第4行和第5行,在整合多視角CLIP嵌入之前,模型捕捉到的空間信息有限,導致在特定角度(第3、4和6列)出現細節丟失。最后,提出的MVAttention實現了跨視角的更一致生成。
結論
VTON 360,一種新穎的3D虛擬試衣(VTON)方法,能夠實現高保真度的虛擬試衣,并支持從任意視角渲染服裝。本文的方法通過將3D VTON重新定義為2D VTON的擴展,確保多視角下的3D一致性結果。為了彌合2D VTON模型與3D一致性需求之間的差距,引入了多項關鍵創新,包括多視角輸入、偽3D姿態表示、多視角空間注意力機制以及多視角CLIP嵌入。大量實驗證明了本文方法的有效性,在保真度和任意視角渲染方面顯著優于現有的3D VTON技術。
本文轉自AI生成未來 ,作者:AI生成未來
