NVIDIA提出虛擬試衣新方法EARSB,讓時尚與科技完美融合!
在數字化浪潮席卷全球的今天,科技正以前所未有的方式融入我們的生活,包括我們追求時尚的方式。想象一下,無需親臨實體店,只需輕點屏幕,就能輕松試穿心儀的衣物,這不再是遙不可及的夢想。NVIDIA聯合波士頓大學提出了 EARSB,該模型能夠智能地識別并修正初始試衣圖像中的錯誤區域,能夠針對特定錯誤進行精準修正,顯著提升試衣效果的真實感和細節表現??梢岳萌祟悎D像生成合成服裝圖像,從而創建(人類,合成服裝)對。這些合成對極大地豐富了訓練數據集,使得虛擬試衣模型的訓練更加高效和準確。
相關鏈接
- 論文:http://arxiv.org/abs/2501.04666v1
論文介紹
給定一個標準產品視圖中的孤立服裝圖像和一個單獨的人物圖像,虛擬試穿任務旨在生成穿著目標服裝的人的新圖像。 先前的虛擬試穿工作在實現這一目標時面臨兩大挑戰:
- 配對的(人類,服裝)訓練數據可用性有限;
- 生成與提示服裝完美匹配的人體紋理很困難,通常會導致文本扭曲和紋理褪色。
論文探索了通過合成數據和模型細化解決這些問題的方法。引入了一種服裝提取模型,該模型可以從穿著衣服的個體的單個圖像生成(人類,合成服裝)對。 然后可以使用合成對來增強虛擬試穿的訓練。 論文還提出了一種基于錯誤感知細化的薛定諤橋(EARSB),它可以精確地針對局部生成錯誤來糾正基礎虛擬試穿模型的輸出。為了識別可能的錯誤,論文提出了一個弱監督錯誤分類器,它可以定位區域以進行細化,隨后使用其置信度熱圖增強 Schrodinger Bridge 的噪聲計劃。在 VITON-HD 和 DressCode-Upper 上的實驗表明,合成數據增強增強了先前工作的性能,而 EARSB 提高了整體圖像質量。在用戶研究中,該模型在平均 59% 的情況下受到用戶的青睞。
方法
基于細化的 EARSB 中的擴散過程。首先對輸入圖像進行預處理,然后使用基本試穿模型,該模型將蒙版人體圖像 xˉ0、其姿勢表示 P 及其服裝 C 作為輸入,以生成初始人體圖像 x1。x1 被輸入到我們的弱監督分類器 (WSC) 以獲得誤差圖 M。該圖將噪聲分布 ? 重新加權為 I 2SB 擴散中的 ?r,并將具有生成誤差的 x1 細化為地面真實圖像x0。
實驗
數據集
數據集。我們使用 VITON-HD、DressCode-Upper 以及我們的合成 H2G-UH 和 H2G-FH 進行訓練。它們分別包括11,647、13,564、12,730、8,939 張訓練圖像。對于合成數據增強,我們將 VITON-HD 與我們的 H2G-UH 相結合,因為它們都主要包含人體上半身圖像。DressCode-Upper 與 H2G-FH 相結合,因為兩者都由全身人體照片組成。
對于評估,VITON-HD 包含 2,032 個(人體、服裝)測試對,DressCode-Upper 有 1,800 個測試對。針對配對和非配對設置進行了實驗。在配對設置中,輸入服裝圖像和人體圖像中的服裝是同一件物品。相反,非配對設置使用不同的服裝圖像。指標。我們使用結構相似性指數測量 (SSIM) 、Frechet 初始距離 (FID) 、核初始距離 (KID) 和學習感知圖像塊相似性 (LPIPS) 來評估圖像質量。所有比較的方法在計算上述指標時都使用相同的圖像大小 512x512和填充。
結果
VITON-HD(上行)和 DressCode(下行)上的可視化。EARSB+H2G-UH 和 EARSBSD+H2G-UH 更好地恢復了服裝中復雜的紋理。
不同時間步驟的結果。提出方法的誤差圖重點關注低質量區域,并保持足夠好區域的質量。
提出的 H2G-UH 上的(人體、合成服裝)對的可視化示例。
VITON-HD 上的可視化示例。EARSB 和 EARSB+H2G-UH 更好地恢復了服裝中復雜的紋理。
結論
本文提出了一種方法來解決虛擬試穿方面的先前研究的兩個缺點。首先通過引入人衣模型來解決數據可用性有限的問題,該模型可以從穿著衣服的個體的單張圖像生成(人衣、合成服裝)對。其次提出了一個改進模型 EARSB,該模型可以精準地針對先前模型輸出中的局部生成誤差。EARSB 根據針對已知偽影的空間變化噪聲計劃改進了初始生成圖像的低質量區域。在兩個基準數據集上進行的實驗表明合成數據增強提高了現有方法的性能,并且 EARSB 提高了先前模型生成的圖像的質量。