NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛發

作者：機器之心 2023-06-05 12:49:27

神經輻射場（Neural Radiance Fields，簡稱 NeRF）已經成為一種流行的新視角合成方法。盡管 NeRF 迅速適應了更廣泛的應用領域，但直觀地編輯 NeRF 場景仍然是一個待解決的挑戰。

神經輻射場（NeRF）已經成為一種流行的新視圖合成方法。雖然 NeRF 正在快速泛化到更廣泛的應用以及數據集中，但直接編輯 NeRF 的建模場景仍然是一個巨大的挑戰。一個重要的任務是從 3D 場景中刪除不需要的對象，并與其周圍場景保持一致性，這個任務稱為 3D 圖像修復。在 3D 中，解決方案必須在多個視圖中保持一致，并且在幾何上具有有效性。

本文來自三星、多倫多大學等機構的研究人員提出了一種新的三維修復方法來解決這些挑戰，在單個輸入圖像中給定一小組姿態圖像和稀疏注釋，提出的模型框架首先快速獲得目標對象的三維分割掩碼并使用該掩碼，然后引入一種基于感知優化的方法，該方法利用學習到的二維圖像再進行修復，將他們的信息提取到三維空間，同時確保視圖的一致性。

該研究還通過訓練一個很有挑戰性的現實場景的數據集，給評估三維場景內修復方法帶來了新的基準測試。特別是，該數據集包含了有或沒有目標對象的同一場景的視圖，從而使三維空間內修復任務能夠進行更有原則的基準測試。

論文地址：https://arxiv.org/pdf/2211.12254.pdf
論文主頁：https://spinnerf3d.github.io/

下面為效果展示，在移除一些對象后，還能與其周圍場景保持一致性：

本文方法和其他方法的比較，其他方法存在明顯的偽影，而本文的方法不是很明顯：

方法介紹

作者通過一種集成的方法來應對三維場景編輯任務中的各種挑戰，該方法獲取場景的多視圖圖像，以用戶輸入提取到的 3D 掩碼，并用 NeRF 訓練來擬合到掩碼圖像中，這樣目標對象就被合理的三維外觀和幾何形狀取代。現有的交互式二維分割方法沒有考慮三維方面的問題，而且目前基于 NeRF 的方法不能使用稀疏注釋得到好的結果，也沒有達到足夠的精度。雖然目前一些基于 NeRF 的算法允許去除物體，但它們并不試圖提供新生成的空間部分。據目前的研究進展，這個工作是第一個在單一框架中同時處理交互式多視圖分割和完整的三維圖像修復的方法。

研究者利用現成的、無 3D 的模型進行分割和圖像修復，并以視圖一致性的方式將其輸出轉移到 3D 空間。建立在 2D 交互式分割工作的基礎上，作者所提出的模型從一個目標對象上的少量用戶用鼠標標定的圖像點開始。由此，他們的算法用一個基于視頻的模型初始化掩碼，并通過擬合一個語義掩碼的 NeRF ，將其訓練成一個連貫的 3D 分割。然后，再應用預先訓練的二維圖像修復到多視圖圖像集上，NeRF 擬合過程用于重建三維圖像場景，利用感知損失去約束 2 維畫圖像的不一致，以及畫深度圖像規范化掩碼的幾何區域。總的來說，研究者們提供了一個完整的方法，從對象選擇到嵌入的場景的新視圖合成，在一個統一的框架中對用戶的負擔最小，如下圖所示。

綜上所述，這篇工作的貢獻如下：

一個完整的 3D 場景操作過程，從用戶交互的對象選擇開始，到 3D 修復的 NeRF 場景結束；
將二維的分割模型擴展到多視圖情況，能夠從稀疏注釋中恢復出具有三維一致的掩碼；
確保視圖一致性和感知合理性，一種新的基于優化的三維修復公式，利用二維圖像修復；
一個新的用于三維編輯任務評估的數據集，包括相應的操作后的 Groud Truth。

具體到方法上面，該研究首先描述了如何從單視圖注釋中初始化一個粗略的 3D 掩碼。將已標注的源代碼視圖表示為 I_1。將對象和源視圖的稀疏信息給一個交互式分割模型，用來估計初始源對象掩碼。然后將訓練視圖作為一個視頻序列，與一起給出一個視頻實例分割模型 V ，以計算，其中是 I_i 的對象掩碼的初始猜測。初始的掩碼通常在邊界附近是不準確的，因為訓練視圖實際上并不是相鄰的視頻幀，而視頻分割模型通常是未知 3D 的。

多視圖分割模塊獲取輸入的 RGB 圖像、相應的相機內在和外部參數，以及初始掩碼去訓練一個語義 NeRF 。上圖描述了語義 NeRF 中使用的網絡；對于點 x 和視圖目錄 d，除了密度 σ 和顏色 c 外，它還返回一個 pre-sigmoid 型的對象 logit，s (x)。為了其快速收斂，研究者使用 instant-NGP 作為他們的 NeRF 架構。與光線 r 相關聯的期望客觀性是通過在等式中呈現 r 上的點的對數而不是它們相對于密度的顏色而得到的：

然后使用分類損失進行監督：

用于監督基于 NeRF 的多視圖分割模型的總體損失為：

最后，采用兩個階段進行優化，進一步改進掩碼；在獲得初始三維掩碼后，從訓練視圖呈現掩碼，并用于監督二次多視圖分割模型作為初始假設（而不是視頻分割輸出）。

上圖顯示了視圖一致的修復方法概述。由于數據的缺乏妨礙了直接訓練三維修改修復模型，該研究利用現有的二維修復模型來獲得深度和外觀先驗，然后監督 NeRF 對完整場景的渲染擬合。這個嵌入的 NeRF 使用以下損失進行訓練：

該研究提出具有視圖一致性的修復方法，輸入為 RGB。首先，該研究將圖像和掩碼對傳輸給圖像修復器以獲得 RGB 圖像。由于每個視圖都是獨立修復的，因此直接使用修復完的視圖監督 NeRF 的重建。本文中，研究者并沒有使用均方誤差（MSE）作為 loss 生成掩碼，而是建議使用感知損失 LPIPS 來優化圖像的掩碼部分，同時仍然使用 MSE 來優化未掩碼部分。該損失的計算方法如下：

即使有感知損失，修復視圖之間的差異也會錯誤地引導模型收斂到低質量幾何（例如，攝像機附近可能形成 “模糊” 幾何測量，以解釋每個視圖的不同信息）。因此，研究員使用已生成的深度圖作為 NeRF 模型的額外指導，并在計算感知損失時分離權值，使用感知損失只擬合場景的顏色。為此，研究者使用了一個對包含不需要的對象的圖像進行了優化的 NeRF，并渲染了與訓練視圖對應的深度圖。其計算方法是用到相機的距離而不是點的顏色代替的方法：

然后將渲染的深度輸入到修復器模型，以獲得修復完的深度圖。研究發現，使用 LaMa 進行深度繪制，如 RGB，可以得到足夠高質量的結果。這個 NeRF 可以是與用于多視圖分割的相同模型，若使用其他來源來獲取掩碼，如人工注釋的掩碼，一個新的 NeRF 將被安裝到場景中。然后，這些深度圖被用來監督已修復的 NeRF 的幾何形狀，通過其渲染深度然后將渲染的深度輸入到修復器模型，以獲得修復完的深度圖。研究發現，使用 LaMa 進行深度繪制，如 RGB，可以得到足夠高質量的結果。這個 NeRF 可以是與用于多視圖分割的相同模型，若使用其他來源來獲取掩碼，如人工注釋的掩碼，一個新的 NeRF 將被安裝到場景中。然后，這些深度圖被用來監督已修復的 NeRF 的幾何形狀，通過其渲染深度到修復的深度的到修復的深度的距離：

實驗結果

多視圖分割：首先評估 MVSeg 模型，沒有任何編輯修復。在本實驗中，假設稀疏圖像點已經給出了一個現成的交互式分割模型，并且源掩碼是可用的。因此，該任務是將源掩碼傳輸到其他視圖中。下表顯示，新模型優于 2D（3D 不一致）和 3D 基線。此外研究者提出的兩階段優化有助于進一步改進所得到的掩碼。

定性分析來說，下圖將研究人員的分割模型的結果與 NVOS 和一些視頻分割方法的輸出進行了比較。與 3D 視頻分割模型的粗邊相比，他們的模型降低了噪聲并提高了視圖的一致性。雖然 NVOS 使用涂鴉（scribbles）不是研究者新模型中使用的稀疏點，但新模型的 MVSeg 在視覺上優于 NVOS。由于 NVOS 代碼庫不可用，研究人員復制了已發布的 NVOS 的定性結果（更多的例子請參見補充文檔）。

下表顯示了 MV 方法與基線的比較，總的來說，新提出的方法明顯優于其他二維和三維修復方法。下表進一步顯示，去除幾何圖形結構的引導會降低已修復的場景質量。

定性結果如圖 6、圖 7 所示。圖 6 表明，本文方法可以重建具有詳細紋理的視圖一致場景，包括有光澤和無光澤表面的連貫視圖。圖 7 表明，本文的感知方法減少了掩碼區域的精確重建約束，從而在使用所有圖像時防止了模糊的出現，同時也避免了單視圖監督造成的偽影。

責任編輯：張燕妮來源：機器之心

神經網絡 AI

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeRF新研究來了：3D場景無痕移除不需要對象，精確到毛發

方法介紹

實驗結果