成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

<noscript id="eeyq6"></noscript>

<table id="eeyq6"></table>

<code id="eeyq6"><small id="eeyq6"></small></code>

<sup id="eeyq6"><tr id="eeyq6"></tr></sup>

<menu id="eeyq6"><s id="eeyq6"></s></menu>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

作者：佚名 2021-10-09 15:36:31

字節跳動視覺技術團隊結合 NeRF 和 Multiplane Image（MPI），提出了一種新的三維空間表達方式 MINE。

字節跳動視覺技術團隊結合 NeRF 和 Multiplane Image（MPI），提出了一種新的三維空間表達方式 MINE。MINE 通過對單張圖片做三維重建，實現新視角合成和深度估算。通過引入隱式神經場（NeRF），研究者將 Multiplane Images （MPI）擴展成連續的深度平面。給定單個圖片作為輸入，MINE 能在相機視錐中的任意深度，預測出一個四通道的圖像，四通道包括 RGB 顏色和空間密度。這種任意深度的四通道預測，實際上是對輸入圖片的視錐的三維重建，以及對被遮擋內容的填充（inpainting）。我們可以利用被重建和填充的視錐方便地渲染出新視角下的 RGB 圖片和深度圖，并且渲染過程是可導的。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

論文地址：https://arxiv.org/pdf/2103.14910.pdf
項目地址：https://github.com/vincentfung13/MINE

在 RealEstate10K，KITTI 和 Flowers Light Fields 數據集上的實驗表明，MINE 在新視角合成的性能上大幅超越了當前最前沿的方法。同時，在 iBims-1 和 NYU-v2 的實驗表明，團隊在沒有使用真值深度做監督訓練的情況下，獲得了和前沿方法接近的深度估計性能。

該研究的訓練代碼與 pretrain model 已經開源。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

相關工作

近年來，在新視角合成這個領域里，最火爆的方法無疑是 ECCV 2020 的 NeRF [5]。與傳統的一些手工設計的顯式三維表達（Light Fields，LDI，MPI 等）不同，NeRF 把整個三維空間的幾何信息與 texture 信息全部用一個 MLP 的權重來表達，輸入任意一個空間坐標以及觀察角度，MLP 會預測一個 RGB 值和 volume density。目標圖片的渲染通過 ray tracing 和 volume rendering 的方式來完成。盡管 NeRF 的效果非常驚艷，但它的缺點也非常明顯：

一個模型只能表達一個場景，且優化一個場景耗時久；
per-pixel 渲染較為低效；
泛化能力較差，一個場景需要較多的照片才能訓練好。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

另外一個與該研究較相關的是 MPI（Multiplane Image）[1, 2, 3]。MPI 包含了多個平面的 RGB-alpha 圖片，其中每個平面表達場景在某個深度中的內容，它的主要缺點在于深度是固定及離散的，這個缺點限制了它對三維空間的表達能力。[1, 2, 3] 都能方便地泛化到不同的場景，然而 MPI 各個平面的深度是固定且離散的，這個缺點嚴重限制了它的效果。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

方法綜述

該團隊采用一個 encoder-decoder 的結構來生成三維表達：

Encoder 是一個全卷積網絡，輸入為單個 RGB 圖片，輸出為 feature maps；
Decoder 也是一個全卷積網絡，輸入為 encoder 輸出的 feature map，以及任意深度值（repeat + concat），輸出該深度下的 RGB-sigma 圖片；
最終的三維表達由多個平面組成，也就是說在一次完整的 forward 中，encoder 需要 inference 一次，而 decoder 需要 inference N 次獲得個 N 平面。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

獲得三維表達后，不再需要任何的網絡 inference，渲染任意 target 相機 pose 下的視角只需要兩步：

利用 homography wrapping 建立像素點間的 correspondence。可以想象，從 target 相機射出一條光線，這條光線與 target 圖片的一個像素點相交，然后，研究者延長這條射線，讓它與 source 相機視錐的各個平面相交。相交點的 RGB-sigma 值可以通過 bilinear sampling 獲得；
利用 volume rendering 將光線上的點渲染到目標圖片像素點上，獲得該像素點的 RGB 值與深度。

Scale 校正

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

MINE 可以利用 structure-from-motion 計算的相機參數與點云進行場景的學習，在這種情況下，深度是 ambiguous 的。由于在這個方法中，深度采樣的范圍是固定的。所以需要計算一個 scale factor，使網絡預測的 scale 與 structure-from-motion 的 scale 進行對齊。團隊利用通過 Structure from Motion 獲得的每個圖片的可見 3D 點 P 以及網絡預測的深度圖 Z 計算 scale factor：

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

獲得 scale factor 后，對相機的位移進行 scale：

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

需要注意的是，由于需要和 ground truth 比較，所以在訓練和測試時需要做 scale calibration。而在部署時不需要做這一步。

端到端的訓練

MINE 可以僅通過 RGB 圖片學習到場景的三維幾何信息，訓練 Loss 主要由兩部分組成：

1.Reconsturction loss——計算渲染出的 target 圖片與 ground truth 的差異：

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

2.Edge-aware smoothness loss——確保在圖片顏色沒有突變的地方，深度也不會突變，這里主要參考了 monodepth2 [6] 種的實現：

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

3.Sparse disparity loss——在訓練集各場景的 scale 不一樣時，利用 structure-from-motion 獲得的稀疏點云輔助場景幾何信息的學習：

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

實驗結果

新視角合成

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

在 KITTI 數據集上，可以看出，此方法在生成質量上大幅超越了當前的 SOTA——把 SSIM 從 0.733 提高到了 0.822。同時，可看出增加預測的平面數，生成圖片的質量也會提高，由于這并不會改變模型的參數量，所以可以看出，采樣平面的深度越稠密，就越利于場景表達的學習。在圖片可視化上，MINE 生成的圖片形變和 artefacts 明顯更少。

單目深度估計

利用在 RealEstate10K 上訓練的模型，在 NYU 以及 iBims-1 數據集上測試了單目深度估計的結果。雖然只有 RGB 和 sparse 深度監督，但 MINE 在單目深度估計任務上取得了非常接近全監督的 3DKenBurns 的性能，并大幅超越了其他弱監督的方法。其中，和 MPI 相比，此方法更不受圖片 texture 的影響，在 texture 豐富的區域依然能生成平滑的深度圖。

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

字節跳動利用單張圖片做三維重建：將NeRF、MPI結合，提出MINE

MINE 與 MPI、NeRF 的比較

MINE 是 MPI 的一種連續深度的擴展，相比于 MPI 和 NeRF，MINE 有幾個明顯的優勢：

與 NeRF 相比，MINE 能夠泛化到訓練集沒有出現過的場景；
與 NeRF 的逐點渲染相比，MINE 的渲染非常高效；
與 MPI 相比，MINE 的深度是連續的，能稠密地表示相機的視錐；
MPI 通過 alpha 合成（alpha compositing）進行渲染，但該方法與射線上點之間的距離無關，而 MINE 利用 volume rendering 解決了這個限制。

然而，MINE 也有一些自身的局限性：

由于輸入是單張圖片，MINE 無法表達相機視錐以外的三維空間；
由于 MINE 的輸入里沒有觀察角度，所以其無法對一些復雜的 view-dependent 效果（如光盤上的彩虹等）進行建模。

責任編輯：張燕妮來源：機器之心Pro

技術研發三維

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

主站蜘蛛池模板：在线亚洲电影 | 国产精品视频一区二区三区四区国 | 欧美日韩一区二区在线观看 | 黑人粗黑大躁护士 | 日韩色图视频 | 爱草视频 | 国内精品久久精品 | 伊人伊成久久人综合网站 | 免费成人高清在线视频 | 正在播放国产精品 | 亚洲欧美日韩激情 | 一区二区三区视频在线观看 | 午夜午夜精品一区二区三区文 | 久久久久久免费免费 | 久久成人一区 | 99热激情 | 亚洲欧美国产精品久久 | 黄色毛片网站在线观看 | 在线视频一区二区三区 | 999精品视频 | 日韩精品视频一区二区三区 | 国产精品久久久久久久久久免费看 | 99在线资源 | 国产精品国产精品国产专区不片 | 欧美日韩久久久久 | 一级片成人 | 亚洲97| 一区二区中文 | 免费的黄色片子 | 日本在线免费看最新的电影 | 成人在线视频免费播放 | 91av视频| 国产日韩久久 | jizz18国产 | 亚洲福利电影网 | 日韩激情视频一区 | 国产午夜精品一区二区三区四区 | 亚州精品天堂中文字幕 | 罗宾被扒开腿做同人网站 | 亚洲精品国产成人 | 噜久寡妇噜噜久久寡妇 |

<dl id="au22e"><cite id="au22e"></cite></dl>

<noscript id="au22e"><optgroup id="au22e"></optgroup></noscript>

<strike id="au22e"><input id="au22e"></input></strike>

<s id="au22e"></s>

<ul id="au22e"><tr id="au22e"></tr></ul>

<strike id="au22e"></strike>

<s id="au22e"></s>

<option id="au22e"></option>