3D人體重建新SOTA!清華&騰訊等重磅發布MagicMan:單一圖像生成高質量人體新突破
文章鏈接:https://arxiv.org/pdf/2408.14211
git鏈接:https://thuhcsi.github.io/MagicMan
亮點直擊
- 提出MagicMan,一種旨在從單一參考圖像生成高質量多視角人像的方法,從而促進無縫的3D人體重建。
- 提出了一種高效的混合多視角注意力機制,以生成更密集的多視角人像,同時保持更好的3D一致性。
- 引入了幾何感知的雙分支結構,在RGB和法線領域同時進行生成,通過幾何線索進一步增強多視角一致性。
- 提出了一種迭代優化策略,逐步提高SMPL-X姿態的準確性和生成的多視角一致性,減少由于SMPL-X估計不可靠導致的幾何畸形問題。
現有的單圖3D人體重建方法存在訓練數據不足導致的泛化性局限問題和缺乏多視角知識導致的3D不一致問題。今天給大家分享一種名為MagicMan的人體多視角擴散模型,該模型旨在從單一參考圖像生成高質量的新視角圖像。其核心思路是利用預訓練的2D擴散模型作為生成先驗以提升泛化能力,并將參數化的SMPL-X模型作為3D人體先驗,以增強幾何感知能力。
為了解決在實現高密度多視角生成以改進3D人體重建時保持一致性的關鍵挑戰,首先引入了混合多視角注意力機制,以促進不同視角之間的高效且全面的信息交換。此外,還提出了一種幾何感知的雙分支結構,同時生成RGB圖像和表面發現,通過幾何信息的補充進一步增強一致性。為了解決因SMPL-X估計不準確導致的幾何畸形問題,又提出了一種新穎的迭代優化策略,該策略逐步優化SMPL-X的準確性,并最終提高生成多視圖的質量和一致性。大量實驗結果表明,本文的方法在新視角合成和后續的3D人體重建任務中顯著優于現有方法。
方法
如下圖3所示,MagicMan以單張人體參考圖像為輸入,生成高質量且一致性良好的密集多視角圖像(即20個視角)。為了利用大量互聯網數據中豐富的人體圖像先驗,MagicMan采用了一個預訓練的擴散模型作為主干網絡,以單張參考圖像和對應的SMPL-X姿態及視角作為生成條件。通過引入一種高效的混合注意力機制建立不同視角之間的聯系,該機制包括在所有視角進行的1D注意力和在特定稀疏視角上進行的3D注意力來同時確保計算效率和多視角一致性。此外又提出了一種幾何感知的雙分支結構,補充了額外的幾何信息以提升幾何穩定性和一致性。最后但同樣重要的是,提出了一種新穎的迭代優化策略,通過在多次迭代中更新SMPL-X姿態的準確性和生成多視角圖像的質量,減少由于姿態估計不準確導致的幾何畸形問題。
條件擴散模型
本文的主干網絡是一個去噪UNet,繼承了SD 1.5的結構和預訓練權重。標準的SD UNet由下采樣模塊、中間模塊和上采樣模塊組成。每個模塊包含若干交織的卷積層、特征進行空間交互的自注意力層,以及與CLIP文本嵌入交互的交叉注意力層。本文去噪UNet需要接收多個噪聲潛變量作為輸入,并生成與參考圖像一致的特定視角下的人體圖像。因此,需要將參考圖像和視角信息注入生成網絡,并提供對應的SMPL-X參數化人體模板作為幾何指導,以便獲得更好的3D一致性。
參考UNet網絡。 受到動畫驅動最新進展的啟發,本文利用和去噪UNet具有相同結構和初始化權重的參考UNet網絡從參考圖像中提取特征,以確保生成的圖像與參考圖像在語義和像素級別上都能保持一致。具體來說,本文使用參考UNet提取的特征代替了常用的CLIP嵌入,并且將原始交叉注意力層替換為參考注意力層,從而注入參考圖像信息。
姿態引導和視角控制
本文從參考圖像估計得到三維SMPL-X網格,并進一步渲染得到表面法線圖和語義分割圖,用于生成過程的姿態和視角控制。法線圖和語義分割圖由一個四層卷積層組成的編碼器進行編碼得到特征圖,和采樣的高斯噪聲相加。另外,相機參數通過一個多層感知機編碼為相機嵌入,和去噪時間步一起加入UNet網絡,用于顯式地提供視角控制信息。
混合多視角注意力
通過參考UNet網絡提取參考圖像特征,已經可以生成與參考圖像一致的新視角人體圖像。進一步需要在不同視角之間建立連接,以提升多視角圖像之間的一致性。為了生成盡可能多的視角來捕捉全面的人體信息并保持高度的一致性,本文提出了一種新穎的混合注意力機制,以結合兩種多視角注意力的優勢,即1D注意力的高效性和3D注意力的全面性。
3D多視角注意力
僅依賴1D注意力會在視角發生較大變化后導致視角之間的內容漂移問題,因為1D注意力缺乏不同位置像素之間的交互,無法從其他視角找到相應的像素。因此,作者進一步集成了3D多視角注意力,促進在空間和視角維度上的更全面的信息共享。由于1D注意力建立了初步的交互,3D注意力可以限制在少量視角的子集上進行,而不會產生過多的內存開銷。
通過混合1D-3D注意力機制,在不增加過多計算成本的情況下建立了不同視角之間更完整的連接,從而能夠生成密集且一致的多視角圖像。在實踐中,為3D注意力選擇的稀疏視角子集在不同的UNet模塊中有所不同,充分利用了不同層次的信息。
幾何感知雙分支
由于在RGB域中難以捕捉到復雜的幾何信息,作者引入了雙分支結構來進行幾何感知去噪,該結構同時生成空間對齊的表面法線圖和RGB圖像。具體來說,作者復制了原始UNet的RGB分支一個輸入和輸出模塊,作為法線分支,其余模塊則作為兩個分支的共享模塊,如圖3(b)所示。通過這些設計,共享模塊促進了跨域的特征融合。法線分支引入了幾何信息,提升了生成結果的結構穩定性和幾何一致性,而RGB分支則有助于生成更準確、細節豐富的法線圖。
迭代優化
由于使用了SMPL-X渲染圖像作為幾何引導,其姿態的準確對于生成和重建質量及其重要。。然而,單目估計可能會產生與參考圖像不匹配的SMPL-X姿態,導致生成扭曲的新視角圖像,并最終3D重建中的幾何畸形問題,如下圖7(b)所示。另一方面,如果不使用SMPL-X參數直接生成新視角圖像,通常可以獲得與參考圖像匹配的姿態,但是表現出較差的3D一致性,最終導致重建失敗,如下圖7(a)所示。因此,作者提出一種迭代優化策略,首先在沒有SMPL-X引導下生成姿態相對準確的新視角圖像,用于優化SMPL-X的姿態準確性;優化后的SMPL-X網格被重新用作新視角圖像生成的條件,從而提升最終生成結果的3D一致性。
基于這些觀察,在訓練過程中隨機以一定比例刪除SMPL-X指導,使生成過程符合無分類器指導(CFG)。在推理階段,引入了一個迭代優化過程,如算法1所述。最初,將CFG比例設置為0,實際上禁用了SMPL-X指導,以在生成的新視角圖像中保留與參考圖像匹配的更準確的姿態。然后使用這些圖像更新SMPL-X參數。在隨后的迭代中,逐漸增加CFG比例,以增強優化后SMPL-X估計的姿態指導,從而進一步提高3D一致性。
優化后,SMPL-X 參數會更加準確并與參考圖像對齊,并將在下一次迭代中以增加的 CFG 比例重新輸入生成過程。
總之,在每次迭代過程中,SMPL-X 參數在所有生成的多視角圖像的監督下進行優化,并且隨著改進后的 SMPL-X 作為指導,多視角生成得到增強。
實驗
訓練數據
在 THuman2.1 數據集的 2347 個人體掃描數據上訓練 MagicMan。使用弱透視相機在 20 個固定視角上渲染 RGB 和法線圖像,這些視角均勻分布在從 0° 到 360° 的方位角上,分辨率為 512×512。
評估數據
在 THuman2.1 數據集中的 95 個掃描數據和 CustomHumans 數據集中的 30 個掃描數據上進行測試,并且還在自然場景中的圖像上進行了評估,包括來自 SHHQ 數據集的 100 張圖像以及從互聯網上收集的 120 張具有不同姿勢、服裝和風格的圖像。
評估指標
評估分為兩個任務進行:
- 新視角合成。使用 PSNR、SSIM、LPIPS 和 CLIP 分數來比較生成的視圖與相應視圖的真實圖像的差異。對于自然場景數據,作者計算生成的參考視圖的 LPIPS 分數,并計算生成的新視角與輸入圖像的 CLIP 分數。
- 3D 人體重建。按照 Xiu 等人的方法,計算 Chamfer 距離、P2S 距離和 L2 法線誤差 (NE)。
新視角合成
為了評估新視角合成的效果,將 MagicMan 與生成物體新視角的合成方法進行比較,如 Zero123、SyncDreamer、Wonder3D和 SV3D,以及具有身體先驗的角色動畫方法,如 Animate Anyone 和 Champ。MagicMan 生成的人體新視角圖像和法線圖的示例如圖1所示,展示了 MagicMan 能夠在各種姿勢、服裝和風格下生成高質量和3D一致性的人體新視角圖像。圖4展示了 MagicMan 與基線方法之間的定性比較。Zero123、SyncDreamer 和 SV3D 在未經過微調的情況下通常會生成扭曲的人像圖像,這表明這些方法不適合直接用作涉及人體任務的 3D 先驗。Wonder3D 僅生成六個視圖,且分辨率為作者的一半,導致紋理細節丟失。缺乏身體先驗還導致幾何錯誤。由于缺乏幾何感知,動畫方法生成的不合理的身體結構有時會在前后視圖之間產生歧義,如下圖 4(c) 所示。此外,在視角大幅度變化時,它們在視圖之間表現出明顯的不一致性,如下圖 4(e) 和 4(f) 所示。相比之下,本文的方法在生成人體密集新視角的同時,能夠保持穩定的結構、一致的幾何形狀和紋理。
下表1中報告了定量比較結果。結果顯示,除了在自然場景數據的參考視圖重建中 LPIPS 稍高外,MagicMan 在像素級別和語義指標上均優于基線方法,這可能是由于 SV3D 在更高分辨率下前視細節較好。然而,新視角的 CLIP 分數表明,本文的方法在新視角合成方面顯著優越。
3D 人體重建
下圖5展示了重建的人體網格,并與包括前饋方法 PIFu、PaMIR、ICON、ECON 以及基于 SDS 的 DreamGaussian 和 TeCH在內的基線方法所生成的網格進行比較。無論是前饋方法還是基于 SDS 的方法,都無法為挑戰性的姿勢和服裝生成合理的幾何結構和詳細一致的紋理,而作者的具有改進身體先驗的 3D 感知擴散模型生成了密集且一致的多視圖,支持了幾何和紋理得到增強的可靠重建。
定量比較
與 PIFu、PAMIR、ICON 和 ECON 的定量比較結果見下表2,顯示 MagicMan 在所有指標上都顯著優于之前的方法。需要注意的是,為了公平比較,作者在實驗中包括了迭代優化過程,并保留了 ICON、ECON 和 PAMIR 的 SMPL-X 優化操作。
消融實驗和討論
混合注意力機制
借助混合注意力機制,MagicMan 可以在訓練中生成最多 20 個一致的多視角圖像,推理時間為約 40 秒(使用 1 張 A100 GPU),而傳統的 3D 注意力機制在相同的內存限制下只能生成 6 個視角,推理時間為約 60 秒。下圖 6 說明了混合注意力的不同組件的有效性:(a) 基線模型在沒有多視角注意力的情況下生成了不一致的視圖。(b) 僅對選定視角進行 3D 注意力仍然會產生閃爍的布料圖案。(c) 僅使用 1D 注意力會出現內容漂移,例如,隨著視角變化逐漸變化的頭發長度,表明僅通過 1D 注意力實現的信息交換提高了相似性,但對于全面一致性來說仍然不足。(d) 作者的完整模型使用混合注意力,在生成密集多視角圖像時表現出最佳的一致性,這也在下表 3 的定量結果中得到了確認。
幾何感知雙分支
在上面圖 6(e) 和表 3 的第 4 行中,去除法線分支會導致多視角一致性的下降,特別是在復雜幾何變形中,例如布料層次和褶皺。作者包含法線預測的完整模型增強了幾何感知,改善了結構和一致性。
迭代優化研究者們進行了消融研究來驗證迭代優化過程的有效性。如前面圖 7(a) 所示,缺乏 SMPL-X 指導的生成結果看似具有準確的姿勢,但由于沒有 3D 先驗,視圖之間姿勢不一致導致了重建中的嚴重偽影。直接使用估計的不準確 SMPL-X 網格作為姿勢指導(如圖 7(b) 所示)會導致生成的新視角圖像扭曲,并且重建的網格(例如,缺失和分離的手和腳)由于 SMPL-X 和參考圖像之間的沖突而出現不良形狀。使用準確的真實 SMPL-X(如圖 7(c) 所示)可以獲得令人印象深刻的結果,但在實踐中通常無法獲得。作者的迭代優化過程通過連續迭代逐步改進了新視角的重建結果,使 SMPL-X 指導越來越準確,如圖 7(e) 中的綠色氣泡所示。最終優化后的多視角圖像,包含準確的姿勢和 3D 一致性,得到的結果與使用真實 SMPL-X 生成的結果相當。優化后的 SMPL-X 網格具有更準確的姿勢和減少的深度歧義,表明預訓練圖像擴散模型中的豐富先驗可以潛在地幫助人體估計。
與之前由 SMPLify、ICON (2022) 等引入的優化方法不同,這些方法基本上是在單視角 2D 平面上對齊 SMPL-X 網格,本文的方法充分利用了來自 3D 感知擴散模型的多視角輸出,將 SMPL-X 網格與 3D 幾何信息對齊,實現了在 3D 空間中更準確的姿勢。
總結和展望
MagicMan,一種通過利用圖像擴散模型作為 2D 生成先驗和 SMPL-X 模型作為 3D 身體先驗的方法,從單張參考圖像生成人體的新視角。基于此,作者提出的高效混合多視角注意力機制確保了生成更密集的多視角圖像,同時保持高的 3D 一致性,這一效果通過幾何感知雙分支進一步得到增強。此外,作者的新型迭代優化過程通過逐次迭代優化初始估計的 SMPL-X 姿勢,以提高生成新視角的一致性,并緩解由不準確 SMPL-X 估計引起的幾何畸形問題。廣泛的實驗結果表明,作者的方法能夠生成密集、高質量且一致的人體新視角圖像,這些圖像也非常適合后續的 3D 人體重建任務。
本文轉自 AI生成未來 ,作者:AI生成未來
