南洋理工 & 牛津 & 新加坡理工提出Amodal3R,可從遮擋 2D 圖像重建完整 3D 資產(chǎn),3D生成也卷起來了!
Amodal3R 是一種條件式 3D 生成模型,能夠從部分可見的 2D 物體圖像中推測并重建完整的 3D 形態(tài)和外觀,顯著提升遮擋場景下的 3D 重建質(zhì)量。
給定圖像中 部分可見的物體,Amodal3R 重建具有合理幾何形狀和合理外觀的語義上有意義的 3D 資產(chǎn)。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2503.13439
- 主頁:https://sm0kywu.github.io/Amodal3R
- 代碼:即將開放...
- 模型:https://huggingface.co/Sm0kyWu/Amodal3R
- 試用:https://huggingface.co/spaces/Sm0kyWu/Amodal3R
論文介紹
Amodal3R 的示例結(jié)果。 給定圖像中部分可見的物體(遮擋區(qū)域顯示為黑色,可見區(qū)域顯示為紅色輪廓),Amodal3R 會生成具有合理幾何形狀和合理外觀的多種語義上有意義的 3D 資產(chǎn)。
大多數(shù)基于圖像的 3D 對象重建器都假設(shè)對象是完全可見的,而忽略了現(xiàn)實場景中常見的遮擋。論文介紹的 Amodal3R 是一種條件 3D 生成模型,旨在從部分觀察中重建 3D 對象。從“基礎(chǔ)”3D 生成模型開始,并將其擴展為從遮擋對象中恢復(fù)合理的 3D 幾何形狀和外觀。作者引入了一種掩模加權(quán)多頭交叉注意機制,隨后是一個遮擋感知注意層,該層明確利用遮擋先驗來指導(dǎo)重建過程。論文證明通過僅對合成數(shù)據(jù)進行訓(xùn)練,Amodal3R 即使在現(xiàn)實場景中存在遮擋的情況下也能學會恢復(fù)完整的 3D 對象。它大大優(yōu)于現(xiàn)有的獨立執(zhí)行 2D 非模態(tài)完成然后進行 3D 重建的方法,從而為遮擋感知 3D 重建建立了新的基準。
與2D非模態(tài)補全+3D重建相比,Amodal3R在遮擋物體的3D重建質(zhì)量方面取得了更好的效果。目標物體和遮擋物以紅色和綠色輪廓標記。
方法
方法概述: 給定一張圖像作為輸入,并在感興趣的區(qū)域中給出提示,Amodal3R 首先使用現(xiàn)成的 2D 分割器提取部分可見的目標對象以及可見性和遮擋蒙版。然后,它應(yīng)用 DINOv2 提取特征 cdino 作為 3D 重建器的額外條件。為了增強遮擋推理,每個轉(zhuǎn)換器塊都包含一個蒙版加權(quán)交叉注意力和遮擋感知注意層,確保3D重建器準確感知可見信息,同時有效推斷被遮擋部分。
Amodal3R 的 Transformer 結(jié)構(gòu)。與原始 TRELLIS 設(shè)計相比,我們進一步引入了 mask 加權(quán)交叉注意和遮擋感知層。它適用于稀疏結(jié)構(gòu)和 SLAT 擴散模型。
3D 一致性蒙版示例。給定一個 3D 網(wǎng)格,我們以與其他三角形不同的顏色渲染選定的三角形,以生成多視圖一致性蒙版。它允許評估 處理接觸遮擋的多視圖方法。(遮擋區(qū)域顯示為紅色。)
結(jié)論
Amodal3R 是一種從部分可見的 2D 圖像重建完整 3D 形狀和外觀的新方法。通過構(gòu)建 mask 加權(quán)交叉注意機制和遮擋感知層,以有效利用可見和遮擋信息。與依賴于順序 2D 完成然后 3D 生成的最先進方法相比,Amodal3R 通過直接在 3D 空間中操作實現(xiàn)了顯著更好的性能。此外,在野外圖像上的結(jié)果表明它在 3D 分解和場景理解中的后續(xù)應(yīng)用潛力,標志著朝著在具有復(fù)雜遮擋的現(xiàn)實環(huán)境中進行穩(wěn)健的 3D 資產(chǎn)重建邁出了一步。