幾何紋理重建新SOTA!浙大提出SIFU:單圖即可重建高質量3D人體模型
在AR、VR、3D打印、場景搭建以及電影制作等多個領域中,高質量的穿著衣服的人體3D模型非常重要。
傳統的方法創建這些模型不僅需要大量時間,還需要能夠捕捉多視角照片的專業設備,此外還依賴于技術熟練的專業人員。
與此相反,在日常生活中,我們最常見的是通過手機相機拍攝的或在各種網頁上找到的人像照片。
因此,一種能從單張圖像準確重建3D人體模型的方法可以顯著降低成本,并簡化獨立創作的過程。
以往方法(左)與本文方法技術路線比較(右)
以往的深度學習模型用于3D人體重建,往往需要經過三個步驟:從圖像中提取2D特征,將2D特征轉到3D空間,以及3D特征用于人體重建。
然而這些方法在2D特征轉換到3D空間的階段,往往忽略了人體先驗的引入,導致特征的提取不夠充分,最終重建結果上會出現各種缺陷。
SIFU與其他SOTA模型重建效果比較
此外,在對紋理預測的階段,以往模型僅僅依靠訓練集中學得的知識,缺少真實世界的先驗知識,也往往導致不可見區域的紋理預測較差。
SIFU在紋理預測階段引入先驗知識,增強不可見區域(背部等)的紋理效果。
對此,來自浙江大學ReLER實驗室的研究人員提出SIFU模型,依靠側視圖條件隱函數從單張圖片重建3D人體模型。
圖片
論文地址:https://arxiv.org/abs/2312.06704
項目地址:https://github.com/River-Zhang/SIFU
該模型通過在2D特征轉換到3D空間引入人體側視圖作為先驗條件,增強幾何重建效果。并在紋理優化階段引入預訓練的擴散模型,來解決不可見區域紋理較差的問題。
模型結構
模型pipeline如下:
圖片
該模型運行可分為兩個階段,第一階段借助側隱式函數重建人體的幾何(mesh)與粗糙的紋理(coarse texture),第二階段則借助預訓練的擴散模型對紋理進行精細化。
在第一階段中,作者設計了一種獨特的Side-view Decoupling Transformer,通過global encoder提取2D特征后,在decoder中引入了人體先驗模型SMPL-X的側視圖作為query,從而在圖像2D特征中解耦出人體不同方向的3D特征(前后左右),最后用于重建。
該方法成功的在2D特征轉換到3D空間時結合人體先驗知識,從而使得模型有更好的重建效果。
在第二階段,作者提出一種3D一致性紋理優化流程(3D Consistent Texture Refinement),首先將人體不可見的區域(側面、背面)可微渲染成視角連續的圖片集,再借助在海量數據中學習到先驗知識的擴散模型,對粗糙紋理圖片進行一致性編輯,得到更精細的結果。最后通過精細化前后的圖片計算損失來優化3D模型的紋理貼圖。
實驗部分
更高的重建精度
在實驗部分,作者使用全面多樣化的測試集對他們的模型進行測試,包括CAPE-NFP、CAPE-FP和THuman2.0,并與以往發表在各大頂會的單張圖片人體重建SOTA模型進行比較。經定量測試,SIFU模型在幾何重建與紋理重建中均表現出了最好的效果。
定量評估幾何重建精度
定量評估紋理重建效果
使用互聯網中公開圖片作為輸入進行定性效果展示
更強的魯棒性
以往的模型應用訓練集以外的數據時,由于估計的人體先驗模型SMPL/SMPL-X不夠準確,往往導致重建結果與輸入圖片相差甚遠,難以投入實際應用。
對此,作者專門對模型的魯棒性進行了測試,通過在ground truth先驗模型參數中加入擾動使其位姿發生偏移,模擬真實場景中SMPL-X估計不準確的情況,來評估模型重建的精度。結果表明SIFU模型在該情況下,依然具有最好的重建精度。
評估模型面對有誤差的人體先驗模型時的魯棒性
使用真實世界中的圖片,在先驗人體模型估計不準確的情況下,SIFU依然有較好的重建效果
更廣闊的應用場景
SIFU模型的高精度高質量重建效果,使得其具有豐富的應用場景,包括3D打印、場景搭建、紋理編輯等。
3D打印SIFU重建的人體模型
SIFU用于3D場景搭建
借助公開動作序列數據,可對SIFU重建的模型進行驅動
總結
本文提出側視圖條件隱式函數和3D一致性紋理編輯方法,彌補了以往工作在2D特征轉換到3D空間、紋理預測時對先驗知識引入的不足,極大的提高了單張圖片人體重建的精度和效果,使模型在真實世界應用中具有顯著的優勢,也為該領域未來的研究提供了新的思路。
參考資料:
https://arxiv.org/abs/2312.06704