YYDS!數字人終于實現穿、脫衣自由!上大、騰訊等提出3D服裝合成新方法:ClotheDreamer 精華
文章鏈接:https://arxiv.org/pdf/2406.16815
項目地址:https://ggxxii.github.io/clothedreamer
高保真度的基于文本的3D服裝合成對于數字化人物創建是可取的,但也具有挑戰性。最近基于擴散的方法,通過評分蒸餾抽樣(SDS)實現了新的可能性,但要么與人體緊密耦合,要么難以重復使用。
本文引入了ClotheDreamer,這是一種基于3D高斯的方法,用于從文本提示生成可穿戴的、適合生產的3D服裝資產。本文提出了一種新穎的表示方法,稱為解耦服裝Gaussian Splatting(DCGS),以實現分離優化。DCGS將著裝的人物頭像表示為一個高斯模型,但凍結了身體高斯斑點。為了提高質量和完整性,本文結合了雙向SDS來監督著裝的人物頭像和服裝的RGBD渲染,分別帶有姿勢條件,并提出了一種新的寬松服裝修剪策略。
本文的方法還可以支持自定義的服裝模板作為輸入。通過本文的設計,合成的3D服裝可以輕松應用于虛擬試穿,并支持物理精確的動畫。廣泛的實驗展示了本文方法優越且具有競爭力的性能。
亮點直擊
- 本文引入了ClotheDreamer,這是一種結合了解耦服裝Gaussian Splatting(DCGS)的新型3D服裝合成方法。本文的技術通過基于ID的初始化,有效地將服裝與人體分離,便于從文本提示生成多樣化且可穿戴的服裝資產。
- 本文提出了雙向SDS指導,以高效地正則化服裝高斯的基礎幾何,并提出了一種修剪策略,以增強寬松服裝的完整性。
- 本文的方法通過模板網格指導支持定制化服裝生成,并通過模擬網格先驗實現準確的服裝動畫。廣泛的實驗表明,ClotheDreamer在文本一致性和整體質量方面優于現有方法。
方法
在本文中,本文介紹了一種基于3D高斯的高保真可重復使用3D服裝生成方法,命名為ClotheDreamer。本文的框架概述如下圖2所示。為了改善合成服裝與人體的互動,本文提出了一種新穎的解耦服裝Gaussian Splatting(DCGS),將穿著的身體部分分為SMPL身體部分和服裝部分。在第一部分中,本文根據文本指令開始使用來自SMPL的相對語義ID初始化DCGS。然后提出通過操控優化梯度來學習身體部位和服裝之間的解耦。在第二部分中,本文介紹了對單個渲染的雙向SDS指導和一種新的寬松服裝修剪策略。在第三部分中進一步展示了本文框架的有效性,可以實現模板引導生成,以簡化定制化。最后展示了合成服裝在多樣化身體動作下的動畫過程。
Zero-shot服裝生成
基于ID的DCGS初始化。人類服裝展示了多樣且復雜的形狀。以前的方法使用 SfM 點或 Shap-E 和 Point-E 生成的通用點云作為初始點,這在人體類別中表現不佳,難以提供強有力的先驗。最近一種流行的初始化選擇是使用一致的身體模型,如 SMPL 或 SMPL-X,因為它們結構良好且可參數化以進行優化。然而,這些方法通常在整個身體網格表面上采樣點,使得難以單獨操控服裝。
本文在每次反向傳播過程后跟蹤采樣的身體點,并屏蔽它們的梯度。在自適應密度化過程中,本文屏蔽了高斯位置梯度積累張量,以在光柵化之前使用部分有效梯度進行更新。此外,本文僅選擇服裝點進行密度化或修剪確定,以減少計算成本。
雙向SDS引導
本文觀察到雙向 SDS 指導可以提升生成服裝的質量并減少高斯偽影,詳見后面消融實驗結果。然而,SDS 監督可能不穩定并導致服裝幾何形狀失真。LZT*23 中的尺寸條件高斯修剪策略在僅修剪階段通常是有效的,但可能誤刪對于寬松服裝(如長裙、禮服)有用的高斯點。如下圖5所示,在優化的早期階段可以獲得合理的結果。然而,由于不恰當的修剪策略,大量有用的高斯點被剪除,導致生成結果不理想。因此,本文提出針對寬松服裝生成的新的修剪策略。本文在訓練的中期僅進行一次修剪,并增加尺度因子范圍作為條件。這確保了消除過度拉伸的點同時保持生成服裝的完整性。具體細節請參見實驗部分。
模板引導的服裝生成
為了增加個性化實用性,本文展示了一種新穎的技術,用于通過自定義模板服裝網格來引導 3D 服裝生成。模板網格旨在作為整體形狀指導服裝生成的基礎。本文的目標是鼓勵高斯點在一般情況下靠近輸入網格形狀,但不局限于表面位置。實現這一目標的初始方法是在零射擊DCGS初始化期間改變采樣的服裝點。然而,自定義模板網格可能具有非常不同的比例和位置信息。簡單地改變服裝采樣點會導致3D高斯點位置錯誤。
因此,本文首先將輸入的模板服裝和 SMPL-X 網格移動到它們的中心,以在世界空間中進行位置對齊。然后,在局部空間中,將兩組頂點連接起來進行統一的縮放和變換。在變換后分別跟蹤每個部分并采樣3D高斯點。通過基于網格的原始方法,可以從文本描述中生成多樣化的服裝幾何形狀和紋理細節,同時利用初始點來約束整體的服裝風格。使用Marvelous Designer 創建的服裝,如下圖8所示,展示了一些模板引導的服裝生成結果。
動畫化DCGS服裝
本文展示了兩種可能的方法來動畫DCGS服裝資產。對于貼身服裝(例如襯衫、短袖、牛仔褲), 本文將訓練好的高斯化身注冊為 SMPL-X,并使用一系列SMPL-X 姿勢參數進行動畫化。然而,這個過程將生成的高斯視為一個集成模型,并且在嘗試動畫寬松服裝(如長袍、裙子、長裙)時遇到困難。下部服裝高斯分別綁定到 SMPL-X 的腿部,導致動畫過程中的撕裂偽影。通過本文的表示,生成的服裝完全與化身體分離,本文建議使用模擬網格來有效地動畫生成的DCGS服裝。
基于網格的服裝動畫。受益于高斯明確的表示,可以將生成的高斯資產視為點云。本文旨在利用時間上的模擬網格作為先驗來驅動服裝點。Marvelous Designer是一款強大和先進的3D虛擬服裝模擬軟件,利用物理參數進行操作。通過模擬的服裝網格序列,可以通過以下三個步驟輕松地對本文的DCGS資產進行動畫化:1. 迭代最近點(ICP)注冊;2. K維樹綁定;3. 高斯變換。本文首先使用 ICP 注冊進行 DCGS 資產與第一個模擬網格之間的粗略對齊。為了加速和精細化最近鄰搜索,本文構建 KD 樹以找到每個服裝高斯的最近網格點。本文利用網格頂點之間的變形來計算服裝高斯的變換。需要注意的是,本文的方法能夠使用一個模擬的網格序列來動畫多個形狀相似的服裝。
實驗
定性比較
本文將 ClotheDreamer 與最新的文本引導 3D 生成方法進行了比較,包括基于網格的Shap-E、基于神經輻射場(NeRF)的ProlificDreamer、以及基于高斯的LGM、GaussianDreamer、DreamGaussian。本文使用GPT-4 生成了100個描述,并隨機選擇了6個進行定性比較。如下圖6所示,本文的生成結果在整體質量和幾何紋理的精細度方面均達到最高水平。需要注意的是,比較的方法往往會生成不完整的服裝,或者在某些情況下生成額外的人體部位。此外還可以看到,得益于3D高斯表示,如下圖7所示,本文的方法能夠生成復雜的衣物材質,例如針織紗線的蓬松外觀。
本文在上圖8中展示了一些模板引導的服裝生成結果。模板網格在整體上指導了幾何形狀,但不會限制細節部分。本文還在圖9中與 HumanGaussian 的穿衣頭像生成和動畫進行了比較。HumanGaussian 生成的頭像與身體集成,往往會導致手部模糊以及衣物上的頭部陰影問題。同時,它也難以處理寬松的服裝(例如短裙、長裙)。本文使用了兩個模擬網格序列,并比較了相同動作下 HumanGaussian 的穿衣頭像動畫。從180幀中隨機選擇4幀。直接將整個頭像綁定到SMPL-X上并使用線性混合蒙皮(LBS),HumanGaussian動畫會產生許多偽影,特別是在膝蓋區域。
定量比較
從文本生成的3D服裝渲染結果應在參考視圖下與輸入文本高度相似,并在新視圖下展示與參考視圖一致的語義。本文使用CLIP評分來評估這兩個方面,該評分計算新視圖與參考視圖之間的語義相似性。本文為每種方法生成100個結果,并采用各自的訓練設置。隨機選擇每個渲染視頻中的4幀來計算CLIP評分。如下表1顯示,本文的方法在文本一致性方面取得了最佳成績。
用戶研究。本文進一步進行了用戶研究,以評估從文本生成的服裝。本文收集了20名參與者對30個比較對的600個反饋。要求參與者根據每種方法的整體質量和與給定提示的一致性進行評分(1-6)。如上表1所示,本文的方法獲得了最高的偏好評分。
消融研究
Bidirectional SDS 的效果。在下圖10中,本文設計了一個變體,通過去除對單獨的服裝渲染的額外SDS指導來進行實驗。觀察到生成的服裝質量明顯低于本文的方法,尤其是在角色頭部區域周圍,容易生成多余的浮動高斯偽影。這與本文的直覺一致,即需要對服裝進行額外的單獨指導以獲得更好的服裝生成效果。相比之下,本文的雙向SDS指導能產生更干凈和穩健的生成結果。
松散服裝剪枝策略的效果。在圖11中,本文設計了一個變體,通過采用 HumanGaussian 中使用的剪枝策略進行實驗。將縮放因子作為剪枝條件被證明是消除冗余高斯斑點的有效方法。然而,在松散服裝的情況下,鳥窩觀察到這種策略會錯誤地移除許多有用的高斯點。相比之下,本文的方法在幾何結構的完整性和細紋理細節方面表現得更加出色。
應用
自動適配。本文方法的一個重要優勢是能夠將服裝生成與角色身體解耦。本文生成的3D服裝資產可以適配于多種不同的角色體型,如下圖12所示。將網格視為密集點云,可以使用ICP配準來計算兩個身體網格之間的變換矩陣。由于生成的服裝在中性形態下非常貼合,本文可以輕松地將點綁定到其網格表面?;谏眢w變換矩陣,本文可以優化服裝變換矩陣以適應各種體型,可能為快速虛擬試穿開辟新的可能。
結論
本文介紹了 ClotheDreamer,這是一種從文本提示生成多樣且可穿戴的3D服裝的創新方法。本文提出了一種新穎的表示方法,名為Disentangled Clothe Gaussian Splatting (DCGS),能夠有效地將衣服與身體解耦。本文還提出了雙向SDS指導,它分別監督帶有姿態條件的服裝化身RGBD渲染,并引入了一種新的修剪策略,以增強寬松服裝的生成完整性。此外,本文展示了通過結合模板網格原語進行個性化生成的多樣性。本文的DCGS服裝可以通過模擬的網格先驗實現逼真的布料動畫。實驗和用戶研究表明,本文的方法在外觀和幾何質量方面優于最先進的方法。
局限性和未來工作。盡管 ClotheDreamer 展示了令人鼓舞的結果,但它仍然存在一些局限性。首先,本文的方法目前整合了上衣和下衣,更精細的解耦將適用于更復雜的試穿場景。其次,類似于其他基于SDS的方法,本文的方法在某些情況下也會出現顏色過飽和的問題。本文相信,探索改進SDS的方法可以幫助緩解這個問題。最后,探索為3D高斯表示disentangling lighting以增強逼真度也是一個有趣的未來方向。最后,disentangling lighting 增強真實感的 3D 高斯表示也是一個有趣的未來方向。
本文轉自 AI生成未來 ,作者:Yufei Liu等
