成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成

發布于 2024-7-4 10:07
瀏覽
0收藏

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

文章鏈接:https://arxiv.org/pdf/2310.11448
git鏈接:https://zju3dv.github.io/4k4d/


本文旨在實現動態3D場景在4K分辨率下的高保真和實時視圖合成。最近,一些動態視圖合成方法在渲染質量方面表現出色。然而,在渲染高分辨率圖像時,它們的速度仍然有限。為解決這個問題,本文提出了4K4D,一種支持硬件光柵化的4D點云表示,能夠實現前所未有的渲染速度。本文的表示基于4D特征網格構建,因此點云被自然地正則化并可以進行穩健優化。此外,設計了一種新穎的混合外觀模型,顯著提升了渲染質量,同時保持了效率。此外,開發了一種可微分的深度剝離算法,以有效地從RGB視頻中學習所提出的模型。實驗表明,在使用RTX 4090 GPU的情況下,本文的表示在1080p分辨率下可以在DNA-Rendering數據集上以超過400 FPS的速度進行渲染,在4K分辨率下可以在ENeRF-Outdoor數據集上以80 FPS的速度進行渲染,比以往方法快30倍,并實現了最先進的渲染質量。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

方法

給定捕捉動態3D場景的多視角視頻,目標是重建目標場景并實時執行新視角合成。為此,研究者們使用空間雕刻算法提取場景的粗點云,并建立基于點云的神經場景表示,該表示可以從輸入視頻中穩健地學習,并支持硬件加速渲染。


下圖2展示了所提模型的概述。首先描述如何基于點云和神經網絡表示動態場景的幾何和外觀。然后,開發了一種可微分深度剝離算法,用于渲染表示,該算法由硬件光柵化器支持,從而顯著提高了渲染速度。最后,討論如何在輸入RGB視頻上優化所提模型。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

使用點云建模動態場景

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區


討論。本文的外觀模型是實現動態場景的低存儲、高保真和實時視圖合成的關鍵。有三種替代方法來表示動態外觀,但它們的表現無法與本文的模型相提并論。


  • 在每個點上定義顯式 SH 系數,如在 3D 高斯分裂 中。當 SH 系數的維度較高且動態場景的點數量較大時,該模型的大小可能太大,無法在消費級 GPU 上訓練。
  • 基于 MLP 的 SH 模型。使用 MLP 來預測每個點的 SH 系數可以有效地減少模型大小。然而,本文的實驗發現基于 MLP 的 SH 模型難以渲染高質量圖像。
  • 連續視角依賴的圖像混合模型,如 ENeRF。使用圖像混合模型表示外觀比僅使用基于 MLP 的 SH 模型具有更好的渲染質量。然而,ENeRF 中的網絡將視角方向作為輸入,因此無法輕松預計算,從而限制了推理期間的渲染速度。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

可微分深度剝離

研究者們提出的動態場景表示可以使用深度剝離算法渲染成圖像。得益于點云表示,能夠利用硬件光柵化器顯著加速深度剝離過程。此外,使這一渲染過程可微分也很容易,從而能夠從輸入的 RGB 視頻中學習本文的模型。


CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

訓練

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區


為了規范,本文提出的表示優化過程,還額外應用mask監督到目標場景的動態區域。僅渲染動態區域的點云以獲得它們的mask,其中像素值由以下公式得到:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

mask損失定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區


最終的損失函數定義如下:

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

其中, 和  是控制對應損失權重的超參數。

推理

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

實現細節

優化

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

點云初始化

利用現有的多視角重建方法來初始化點云。對于動態區域,使用分割方法 在輸入圖像中獲取它們的mask,并利用空間雕刻算法提取它們的粗略幾何信息。對于靜態背景區域,利用前景mask沿所有幀計算背景像素的mask加權平均,生成不包含前景內容的背景圖像。然后,在這些圖像上訓練一個 Instant-NGP模型,從中獲取初始點云。初始化后,動態區域每幀通常包含約 250k 個點,靜態背景區域通常包含約 300k 個點。

實驗

數據集和評估指標

在多個廣泛使用的多視角數據集上訓練和評估本文的方法 4K4D,包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。


  • DNA-Rendering: 這個數據集使用 4K 和 2K 相機記錄了動態人類和物體的 10 秒視頻片段,幀率為 15 FPS,采集了 60 個視角。由于錄制了復雜的服裝和快速移動的人物,這個數據集非常具有挑戰性。在 DNA-Rendering 的 4 個序列上進行實驗,其中將 90% 的視角作為訓練集,其余作為評估集。
  • ENeRF-Outdoor: 這個數據集在室外環境中使用 1080p 相機以 30FPS 記錄了多個動態人物和物體。選擇了三個包含 6 個不同演員(每個序列選擇了 2 個演員)的 100 幀序列來評估本文的方法 4K4D。這個數據集對于動態視角合成具有挑戰性,因為同一個片段中不僅有多個移動的人物和物體,而且由于人物的陰影,背景也是動態的。


遵循 Im4D 和 NeuralBody 的做法,在 DNA-Rendering 和 NHR 數據集上評估動態區域的指標,可以通過預定義人物的 3D 邊界框并將其投影到圖像上來獲得。對于 ENeRF-Outdoor,聯合訓練前景的動態幾何和外觀以及背景的動態外觀,以獲得整體圖像的渲染結果。所有圖像在評估時都會按比例調整大小,如果原始分辨率超過 2K,則縮放比例為 0.375。在實驗中,DNA-Rendering 的渲染圖像大小為 1024×1224(和 1125×1536),ENeRF-Outdoor 的分辨率為 960×540。Neural3DV 視頻和 NHR 的分辨率分別為 1352×1224 和 512×612(和 384×512)。

對比實驗

對比結果在 DNA-Rendering數據集上的定性和定量比較如下圖5和表1所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

從表 1 可以明顯看出,本文的方法 4K4D 的渲染速度比當前最先進的實時動態視角合成方法ENeRF快30倍,并且在渲染質量上表現更優秀。即使與并行工作相比,本文的方法 4K4D 仍然實現了 13 倍的加速,并且能夠產生一致性更高質量的圖像。如圖 5 所示,KPlanes無法恢復高度詳細的 4D 動態場景的外觀和幾何特征。其他基于圖像的方法 能夠產生高質量的外觀效果。然而,它們往往在遮擋和邊緣處產生模糊的結果,導致視覺質量的降低,最多能保持交互式幀率。相反,本文的方法 4K4D 可以以超過 200 FPS 的速度生成更高保真度的渲染結果。圖 3 和表 2 提供了在 ENeRF-Outdoor數據集上的定性和定量結果。即使在具有多個演員和動態背景的挑戰性 ENeRF-Outdoor 數據集上,本文的方法 4K4D 仍然能夠取得顯著更好的結果,同時以超過 140 FPS 的速度進行渲染。ENeRF在這個具有挑戰性的數據集上產生模糊的結果,而 IBRNet的渲染結果在圖像邊緣處含有黑色偽影,如圖 3 所示。K-Planse在重建動態人物和變化背景區域上失敗。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

消融研究

在 DNA-Rendering數據集的 150 幀序列 0013 01 上進行了消融研究。定性和定量結果如下圖6和表4至表7所示。

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區


存儲分析對于 150 幀序列 0013 01 場景,本文的方法 4K4D 的存儲分析列在表 5 中。由于其顯式表示,點位置 p 占據了模型尺寸的大部分。本文方法的最終存儲成本每幀少于 2 MB,包括源視頻。DNA-Rendering的輸入圖像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 編碼器將所有輸入圖像的幀編碼為視頻,編碼質量因子設置為 25。編碼后,觀察到 LPIPS 沒有變化(0.040),SSIM 沒有損失(0.982),PSNR 只降低了 0.42%(31.990 對比 31.855),表明方法 4K4D 對于輸入圖像的視頻編碼具有魯棒性。對于以視頻形式編碼的輸入圖像,基于圖像的渲染的存儲開銷每幀僅為 0.419 MB,渲染質量幾乎沒有變化。


作者預計算了點云上的物理屬性以實現實時渲染,每幀大約需要 2 秒。盡管預計算的緩存尺寸較大(0013 01 的一幀為 200 MB),但這些預計算的緩存僅駐留在主存儲器中,并沒有顯式存儲在磁盤上,這對現代個人電腦來說是可行的。這使得表示形式成為一種壓縮形式,磁盤文件大小較小(每幀 2 MB),但所包含的信息非常豐富(每幀 200 MB)。

渲染速度分析

本文引入了多種優化技術來加速方法 4K4D 的渲染速度,這些技術僅由研究者們提出的混合幾何和外觀表示方法實現。在上面表6中,分析了這些提議技術在 DNA-Rendering 數據集的 150 幀序列 0013 01 上的有效性和質量影響。


計算的有效性

CVPR`24 | 又快又好!渲染速度比ENeRF快30倍!4K4D:實時4K分辨率4D視圖合成-AI.x社區


可微深度剝離本文還與傳統的基于 CUDA 的可微分點云渲染技術(PyTorch3D 提供的)進行比較,以驗證提出的可微分深度剝離算法的有效性。本文提出的可微分深度剝離算法和 PyTorch3D的實現都使用了與 Eq. (4) 相同的體積渲染方程。如表 6 所示,本文的方法比基于 CUDA 的方法快了超過 7 倍。


其他加速技術

  • “w/o fp16” 變體使用原始的 32 位浮點數進行計算。
  • “w/o K = 12” 變體在深度剝離算法中使用了 15 個渲染通道,與訓練時相同。使用 16 位浮點數和 12 個渲染通道都可以實現 20FPS 的加速。

不同GPU和分辨率上的渲染速度本文還報告了在不同硬件(RTX 3060、3090 和 4090)以及不同分辨率(720p、1080p 和 4K(2160p))上的渲染速度(見表 7)。這里報告的渲染速度包含了交互式 GUI 的開銷(“w/ GUI”),因此略低于報告的速度。4K4D 即使在使用普通硬件渲染 4K(2160p)圖像時也能實現實時渲染,如表中所示。

結論與討論

本文提出了一種基于神經點云的表示方法,稱為4K4D,用于實時渲染4K分辨率的動態3D場景。在4D特征網格上構建了4K4D,以自然地規范化點,并開發了一種新穎的混合外觀模型,用于高質量渲染。此外,本文開發了一種可微分深度剝離算法,利用硬件光柵化流水線有效優化和高效渲染所提出的模型。在實驗中,展示了4K4D不僅實現了最先進的渲染質量,而且在渲染速度上表現出了超過30倍的提升(在RTX 3090上,1080p分辨率超過200FPS)。


然而,本文的方法仍然存在一些局限性。4K4D無法生成跨幀的點對應關系,這對于某些下游任務至關重要。此外,4K4D的存儲成本隨視頻幀數線性增加,因此在建模長體積視頻時會面臨困難。如何建模點對應關系和減少長視頻的存儲成本,可能是未來研究中的兩個有趣問題。


本文轉自 AI生成未來 ,作者:Zhen Xu等


原文鏈接:??https://mp.weixin.qq.com/s/kIXF_o61seriih7En1-ZGQ??

標簽
收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 久久久久久国产精品免费 | 亚洲午夜精品视频 | 亚洲精品国产成人 | 成人1区2区 | 国产日韩一区二区三区 | 色在线看| 亚洲精品久久久久久国产精华液 | 国产一区二区三区四区五区加勒比 | 性色av网站 | 日韩在线视频网址 | 日本久久网 | 天天爱av | 国产亚洲精品精品国产亚洲综合 | 天天人人精品 | 黄视频免费在线 | 国产色片| 久久久久久国产精品免费 | 日批免费看| 亚洲欧美日韩中文字幕一区二区三区 | 暖暖成人免费视频 | 国产高清精品一区二区三区 | 亚洲日韩第一页 | 精品视频一区二区三区在线观看 | a视频在线 | 国产精品视频一区二区三 | 精品国产一区二区三区日日嗨 | 国产成人一区二区三区精 | 欧美日韩亚洲视频 | 中文字幕久久精品 | 欧美久久久久久久久中文字幕 | 国产精品亚洲综合 | 欧美日韩一区二区三区视频 | 天天干夜夜操 | 精品久久久久久 | 国产精品入口麻豆www | 免费视频一区二区 | 成人免费视频网站在线看 | 中文字幕一区二区三区不卡 | 超碰在线免费av | 国产精品自产拍 | 欧美精品在线免费观看 |