清華大學(xué)提出三維重建的新方法:O2-Recon,用2D擴散模型補全殘缺的3D物體
在計算機視覺中,物體級別的三維表面重建技術(shù)面臨諸多挑戰(zhàn)。與場景級別的重建技術(shù)不同,物體級別的三維重建需要為場景中的每個物體給出獨立的三維表示,以支持細粒度的場景建模和理解。這對 AR/VR/MR 以及機器人相關(guān)的應(yīng)用具有重要意義。
許多現(xiàn)有方法利用三維生成模型的隱空間來完成物體級別的三維重建,這些方法用隱空間的編碼向量來表示物體形狀,并將重建任務(wù)建模成對物體位姿和形狀編碼的聯(lián)合估計。得益于生成模型隱空間的優(yōu)秀性質(zhì),這些方法可以重建出完整的物體形狀,但僅限于特定類別物體的三維重建,如桌子或椅子。即使在這些類別中,這類方法優(yōu)化得到的形狀編碼也往往難以準確匹配實際物體的三維形狀。另外一些方法則從數(shù)據(jù)庫中檢索合適的 CAD 模型,并輔以物體位姿估計來完成三維重建,這類方法也面臨著類似的問題,其可擴展性比較有限,重建準確性低,很難貼合物體真實的三維表面結(jié)構(gòu)。
隨著 NeRF 和 NeuS 等技術(shù)的發(fā)展,imap 和 vMap 等技術(shù)能夠利用可微渲染來優(yōu)化物體的幾何結(jié)構(gòu),這些方法能夠重建出更加貼合真實物體表面的網(wǎng)格模型,也能夠重建多個類別的物體,打破單一物體類別的限制。然而,由于場景內(nèi)部拍攝角度的約束,很多物體都是被遮擋的,比如靠近墻壁的物體,或者彼此遮擋的物體。在物體被遮擋的情況下,這些方法重建出的物體往往是不完整的,如下圖所示。這些不完整的三維模型無法支持大角度的旋轉(zhuǎn)和大范圍平移,就很難被各種下游任務(wù)利用。
遮擋下的重建結(jié)果
清華大學(xué)劉永進教授團隊提出物體三維重建的新方法 O2-Recon,利用已有的 2D 擴散模型補全物體圖像中被遮擋的區(qū)域,繼而用神經(jīng)隱式表面場從補全后的圖像中重建完整的三維物體。該論文利用重投影機制保持填充區(qū)域的三維一致性,并且在隱式重建過程中加入 CLIP 損失函數(shù)監(jiān)督不可見角度的語義信息,最終重建出完整且合理的三維物體模型,支持大角度的旋轉(zhuǎn)和平移,可以用于各種下游任務(wù)。目前,該論文已被人工智能頂會之一 AAAI 2024 接收。
論文鏈接:https://arxiv.org/abs/2308.09591
O2-Recon 簡介
方法介紹
受到 2D 擴散模型在圖像補全任務(wù)中出色表現(xiàn)的啟發(fā),研究者設(shè)計了 O2-Recon 方法,旨在利用預(yù)訓(xùn)練的擴散模型來補全圖像中物體被遮擋的區(qū)域。雖然現(xiàn)有的擴散模型在圖像補全中表現(xiàn)出強勁的性能,但如果沒有準確的遮罩(Mask)來指出物體應(yīng)當被補全的區(qū)域,擴散模型就很有可能生成錯誤的圖像內(nèi)容,比如超出正確區(qū)域的結(jié)構(gòu)或者錯誤的形狀。在 O2-Recon 方法中,研究者引入了少量的人工操作來構(gòu)建準確的 Mask,從而保證 2D 補全和 3D 重建的質(zhì)量。
給定一段帶有物體 Mask 的 RGB-D 視頻序列,需要用戶選擇 1-3 幀圖像,并推測這 1-3 幀圖像中物體被遮擋的區(qū)域,繪制被遮擋區(qū)域的 Mask。結(jié)合擴散模型補全出的深度信息,研究者將這些視角下的 Mask 投影到所有其他視角,得到其他視角下的遮擋區(qū)域 Mask。通過加入少量的人機交互,研究者保證了 Mask 的質(zhì)量,同時由于這些 Mask 是重投影得到的,它們在不同視角下具有的幾何一致性,從而能夠引導(dǎo) 2D 擴散模型為遮擋區(qū)域填充出合理且一致的圖像內(nèi)容。
在三維重建階段,研究者利用類似于 NeuS 的神經(jīng)隱式表面場來完成表面重建,并利用體渲染構(gòu)建損失函數(shù)進行優(yōu)化。考慮到補全的圖像仍然可能存在不一致性,這種隱式表示能在多視角優(yōu)化的過程中逐漸學(xué)習(xí)出合理的三維結(jié)構(gòu)。另一方面,研究者從兩個角度來提升完全不可見區(qū)域的重建效果:首先,研究者利用 CLIP 特征監(jiān)督新視角下渲染結(jié)果與和物體類別文本的一致性;其次,研究者設(shè)計了一個級聯(lián)網(wǎng)絡(luò)結(jié)構(gòu)來編碼隱式表面場,其中包括一個淺層的 MLP+低頻位置編碼來確保表面的整體平滑性,以及一個更深的 MLP 分支+高頻 PE 位置編碼來預(yù)測 SDF 的殘差。這種結(jié)構(gòu)既保證可見區(qū)域表面的靈活性,又確保了物體不可見區(qū)域的平滑性。
實驗效果
物體的三維重建效果
主要實驗結(jié)果展示
與其他物體級別的三維重建方法相比,O2-Recon 能重建出更準確,更完整的三維結(jié)構(gòu),如上圖所示。其中 FroDO 是基于隱空間形狀編碼的方法,Scan2CAD 是基于數(shù)據(jù)庫檢索的方法,vMap 是利用 NeRF 做表面重建的方法,MonoSDF 是場景級別的三維重建方法。
動圖對比
動圖對比
動圖對比
重建后物體的位置編輯
由于 O2-Recon 重建出的物體較為完整,我們可以對這些物體做大幅度的旋轉(zhuǎn)或平移,在編輯位置之后,從新的角度觀察這些物體,其表面質(zhì)量仍然不錯,如下圖所示。
在編輯之前,這些物體在原場景中的位置下:
多物體動圖對比
在編輯之后,這些物體在新的位置下:
多物體動圖對比
總結(jié)
本文提出了 O2-Recon 方法,來利用預(yù)訓(xùn)練的 2D 擴散模型重建場景中被遮擋物體的完整 3D 幾何形狀。研究者利用擴散模型對多視角 2D 圖像中的遮擋部分進行補全,并從補全后的圖像利用神經(jīng)隱式表面重建 3D 物體。為了防止 Mask 的不一致性,研究者采用了一種人機協(xié)同策略,通過少量人機交互生成高質(zhì)量的多角度 Mask,有效地引導(dǎo) 2D 圖像補全過程。在神經(jīng)隱式表面的優(yōu)化過程中,研究者設(shè)計了一個級聯(lián)的網(wǎng)絡(luò)架構(gòu)來保證 SDF 的平滑性,并利用預(yù)訓(xùn)練的 CLIP 模型通過語義一致性損失監(jiān)督新視角。研究者在 ScanNet 數(shù)據(jù)集上的實驗證明,O2-Recon 能夠為任意類別的被遮擋物體重建出精確完整的 3D 表面。這些重建出的完整 3D 物體支持進一步的編輯操作,如大范圍旋轉(zhuǎn)和平移。