成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

新聞
字節跳動視覺技術團隊結合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達方式 MINE。

  [[427817]]

字節跳動視覺技術團隊結合 NeRF 和 Multiplane Image(MPI),提出了一種新的三維空間表達方式 MINE。MINE 通過對單張圖片做三維重建,實現新視角合成和深度估算。通過引入隱式神經場(NeRF),研究者將 Multiplane Images (MPI)擴展成連續的深度平面。給定單個圖片作為輸入,MINE 能在相機視錐中的任意深度,預測出一個四通道的圖像,四通道包括 RGB 顏色和空間密度。這種任意深度的四通道預測,實際上是對輸入圖片的視錐的三維重建,以及對被遮擋內容的填充(inpainting)。我們可以利用被重建和填充的視錐方便地渲染出新視角下的 RGB 圖片和深度圖,并且渲染過程是可導的。

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE
  • 論文地址:https://arxiv.org/pdf/2103.14910.pdf
  • 項目地址:https://github.com/vincentfung13/MINE

在 RealEstate10K,KITTI 和 Flowers Light Fields 數據集上的實驗表明,MINE 在新視角合成的性能上大幅超越了當前最前沿的方法。同時,在 iBims-1 和 NYU-v2 的實驗表明,團隊在沒有使用真值深度做監督訓練的情況下,獲得了和前沿方法接近的深度估計性能。

該研究的訓練代碼與 pretrain model 已經開源。

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

相關工作

近年來,在新視角合成這個領域里,最火爆的方法無疑是 ECCV 2020 的 NeRF [5]。與傳統的一些手工設計的顯式三維表達(Light Fields,LDI,MPI 等)不同,NeRF 把整個三維空間的幾何信息與 texture 信息全部用一個 MLP 的權重來表達,輸入任意一個空間坐標以及觀察角度,MLP 會預測一個 RGB 值和 volume density。目標圖片的渲染通過 ray tracing 和 volume rendering 的方式來完成。盡管 NeRF 的效果非常驚艷,但它的缺點也非常明顯:

  1. 一個模型只能表達一個場景,且優化一個場景耗時久;
  2. per-pixel 渲染較為低效;
  3. 泛化能力較差,一個場景需要較多的照片才能訓練好。
字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

另外一個與該研究較相關的是 MPI(Multiplane Image)[1, 2, 3]。MPI 包含了多個平面的 RGB-alpha 圖片,其中每個平面表達場景在某個深度中的內容,它的主要缺點在于深度是固定及離散的,這個缺點限制了它對三維空間的表達能力。[1, 2, 3] 都能方便地泛化到不同的場景,然而 MPI 各個平面的深度是固定且離散的,這個缺點嚴重限制了它的效果。

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

方法綜述

該團隊采用一個 encoder-decoder 的結構來生成三維表達:

  1. Encoder 是一個全卷積網絡,輸入為單個 RGB 圖片,輸出為 feature maps;
  2. Decoder 也是一個全卷積網絡,輸入為 encoder 輸出的 feature map,以及任意深度值(repeat + concat),輸出該深度下的 RGB-sigma 圖片;
  3. 最終的三維表達由多個平面組成,也就是說在一次完整的 forward 中,encoder 需要 inference 一次,而 decoder 需要 inference N 次獲得個 N 平面。
字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

獲得三維表達后,不再需要任何的網絡 inference,渲染任意 target 相機 pose 下的視角只需要兩步:

  1. 利用 homography wrapping 建立像素點間的 correspondence。可以想象,從 target 相機射出一條光線,這條光線與 target 圖片的一個像素點相交,然后,研究者延長這條射線,讓它與 source 相機視錐的各個平面相交。相交點的 RGB-sigma 值可以通過 bilinear sampling 獲得;
  2. 利用 volume rendering 將光線上的點渲染到目標圖片像素點上,獲得該像素點的 RGB 值與深度。

Scale 校正

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

MINE 可以利用 structure-from-motion 計算的相機參數與點云進行場景的學習,在這種情況下,深度是 ambiguous 的。由于在這個方法中,深度采樣的范圍是固定的。所以需要計算一個 scale factor,使網絡預測的 scale 與 structure-from-motion 的 scale 進行對齊。團隊利用通過 Structure from Motion 獲得的每個圖片的可見 3D 點 P 以及網絡預測的深度圖 Z 計算 scale factor:

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

獲得 scale factor 后,對相機的位移進行 scale:

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

需要注意的是,由于需要和 ground truth 比較,所以在訓練和測試時需要做 scale calibration。而在部署時不需要做這一步。

端到端的訓練

MINE 可以僅通過 RGB 圖片學習到場景的三維幾何信息,訓練 Loss 主要由兩部分組成:

1.Reconsturction loss——計算渲染出的 target 圖片與 ground truth 的差異:

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

2.Edge-aware smoothness loss——確保在圖片顏色沒有突變的地方,深度也不會突變,這里主要參考了 monodepth2 [6] 種的實現:

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

3.Sparse disparity loss——在訓練集各場景的 scale 不一樣時,利用 structure-from-motion 獲得的稀疏點云輔助場景幾何信息的學習:

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

實驗結果

新視角合成

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

在 KITTI 數據集上,可以看出,此方法在生成質量上大幅超越了當前的 SOTA——把 SSIM 從 0.733 提高到了 0.822。同時,可看出增加預測的平面數,生成圖片的質量也會提高,由于這并不會改變模型的參數量,所以可以看出,采樣平面的深度越稠密,就越利于場景表達的學習。在圖片可視化上,MINE 生成的圖片形變和 artefacts 明顯更少。

單目深度估計

利用在 RealEstate10K 上訓練的模型,在 NYU 以及 iBims-1 數據集上測試了單目深度估計的結果。雖然只有 RGB 和 sparse 深度監督,但 MINE 在單目深度估計任務上取得了非常接近全監督的 3DKenBurns 的性能,并大幅超越了其他弱監督的方法。其中,和 MPI 相比,此方法更不受圖片 texture 的影響,在 texture 豐富的區域依然能生成平滑的深度圖。

字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE
字節跳動利用單張圖片做三維重建:將NeRF、MPI結合,提出MINE

MINE 與 MPI、NeRF 的比較

MINE 是 MPI 的一種連續深度的擴展,相比于 MPI 和 NeRF,MINE 有幾個明顯的優勢:

  1. 與 NeRF 相比,MINE 能夠泛化到訓練集沒有出現過的場景;
  2. 與 NeRF 的逐點渲染相比,MINE 的渲染非常高效;
  3. 與 MPI 相比,MINE 的深度是連續的,能稠密地表示相機的視錐;
  4. MPI 通過 alpha 合成(alpha compositing)進行渲染,但該方法與射線上點之間的距離無關,而 MINE 利用 volume rendering 解決了這個限制。

然而,MINE 也有一些自身的局限性:

  1. 由于輸入是單張圖片,MINE 無法表達相機視錐以外的三維空間;
  2. 由于 MINE 的輸入里沒有觀察角度,所以其無法對一些復雜的 view-dependent 效果(如光盤上的彩虹等)進行建模。

 

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2023-10-16 09:51:47

模型視覺

2023-10-27 14:54:33

智能駕駛云計算

2021-03-16 09:53:35

人工智能機器學習技術

2024-02-20 09:46:00

模型技術

2024-06-19 11:30:36

2023-12-13 10:14:00

機器視覺技術

2023-06-02 14:10:05

三維重建

2022-09-26 15:18:15

3D智能

2021-04-21 10:18:25

人工智能機器學習技術

2023-03-21 09:19:42

技術圖像

2023-12-29 09:36:51

三維模型

2024-09-04 09:38:02

2025-02-06 09:20:00

2023-04-03 11:52:51

6D英偉達

2021-09-30 09:54:29

科技人工智能優化

2024-12-12 08:28:11

2025-03-24 09:41:22

2022-07-22 07:25:12

模型人工智能

2023-08-05 13:53:34

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 在线亚洲电影 | 国产精品视频一区二区三区四区国 | 欧美日韩一区二区在线观看 | 黑人粗黑大躁护士 | 日韩色图视频 | 爱草视频 | 国内精品久久精品 | 伊人伊成久久人综合网站 | 免费成人高清在线视频 | 正在播放国产精品 | 亚洲欧美日韩激情 | 一区二区三区视频在线观看 | 午夜午夜精品一区二区三区文 | 久久久久久免费免费 | 久久成人一区 | 99热激情 | 亚洲欧美国产精品久久 | 黄色毛片网站在线观看 | 在线视频一区二区三区 | 999精品视频 | 日韩精品视频一区二区三区 | 国产精品久久久久久久久久免费看 | 99在线资源 | 国产精品国产精品国产专区不片 | 欧美日韩久久久久 | 一级片成人 | 亚洲97| 一区二区中文 | 免费的黄色片子 | 日本在线免费看最新的电影 | 成人在线视频免费播放 | 91av视频| 国产日韩久久 | jizz18国产 | 亚洲福利电影网 | 日韩激情视频一区 | 国产午夜精品一区二区三区四区 | 亚州精品天堂中文字幕 | 罗宾被扒开腿做同人网站 | 亚洲精品国产成人 | 噜久寡妇噜噜久久寡妇 |