成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

開始棄用NeRF?為什么Gaussian Splatting在自動駕駛場景如此受歡迎?

人工智能 智能汽車
今天為大家分享浙大剛剛出爐的3D Gaussian Splatting綜述,文章首先回顧了3D Gaussian的原理和應用,借著全面比較了3D GS在靜態場景、動態場景和駕駛場景中的性能,最后為未來指明了研究方向!

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

三維 Gaussian splatting(3DGS)是近年來在顯式輻射場和計算機圖形學領域出現的一種變革性技術。這種創新方法的特點是使用了數百萬個3D高斯,這與神經輻射場(NeRF)方法有很大的不同,后者主要使用隱式的基于坐標的模型將空間坐標映射到像素值。3D GS憑借其明確的場景表示和可微分的渲染算法,不僅保證了實時渲染能力,而且引入了前所未有的控制和場景編輯水平。這將3D GS定位為下一代3D重建和表示的潛在游戲規則改變者。為此我們首次系統地概述了3D GS領域的最新發展和關鍵貢獻。首先詳細探索了3D GS出現的基本原理和公式,為理解其意義奠定了基礎。進而深度討論3D GS的實用性。通過促進實時性能,3D GS開辟了大量應用,從虛擬現實到交互式媒體等等。此外,還對領先的3D GS模型進行了比較分析,并在各種基準任務中進行了評估,以突出其性能和實用性。該綜述的結論是確定了當前的挑戰,并提出了該領域未來研究的潛在途徑。通過這項調查,我們旨在為新來者和經驗豐富的研究人員提供寶貴的資源,促進在適用和明確的輻射場表示方面的進一步探索和進步。

為了幫助讀者跟上3D GS的快速發展,我們提供了首個關于3D GS的調查綜述,我們系統而及時地收集了有關該主題的最重要的最新文獻。鑒于3D GS是最近的一項創新(圖1),我們的重點是自其推出以來出現的各種發展和貢獻。3D GS的相關工作主要來源于arxiv。文章的主要目標是對3D GS的初步發展、理論基礎和新興應用進行全面和最新的分析,突出其在該領域的革命性潛力。承認3D GS的新生但快速發展的性質,本次調查還旨在確定和討論該領域的當前挑戰和未來前景。我們提供了對3D GS可能促進的正在進行的研究方向和潛在進展的見解。希望給大家的不僅僅是提供一個學術綜述,而是促進這一領域的進一步研究和創新。本文的文章結構如圖2所示:

背景介紹

本節首先提供輻射場的簡要公式,輻射場是場景渲染中的一個關鍵概念。它概述了兩種主要類型的輻射場表示:隱式如NeRF,它使用神經網絡進行直接但計算要求高的渲染;和顯式的比如網格,它采用離散結構來更快地訪問,但代價是更高的內存使用率。下文進一步建立了與相關領域的聯系,如場景重建和渲染。

問題定義

輻射場:輻射場是三維空間中光分布的表示,它捕捉光如何與環境中的表面和材料相互作用。從數學上講,輻射場可以描述為函數,其中將空間中的一個點和由球面坐標指定的方向映射到非負輻射值。輻射場可以通過隱式或顯式表示進行封裝,每種表示都具有特定的場景表示和渲染優勢。

隱式輻射場:隱式輻射場表示場景中的光分布,而不明確定義場景的幾何體。在深度學習時代,它經常使用神經網絡來學習連續的體積場景表示。最突出的例子是NeRF。在NeRF中,MLP網絡用于將一組空間坐標和觀看方向映射到顏色和密度值。任何點的輻射度都不是明確存儲的,而是通過查詢神經網絡實時計算的。因此,函數可以寫成:

這種格式允許對復雜場景進行可微分和緊湊的表示,盡管由于體積光線行進,渲染過程中的計算負載往往很高。

顯式輻射場:相反,顯式輻射場直接表示離散空間結構中的光分布,例如體素網格或點集。該結構中的每個元素存儲其在空間中的相應位置的輻射信息。這種方法允許更直接且通常更快地訪問輻射數據,但代價是更高的內存使用率和潛在的更低分辨率。顯式輻射場表示的一般形式可以寫成:

其中DataStructure可以是網格或點云,是基于觀看方向修改輻射的函數。

兩全其美的3D Gaussian Splatting:3D GS表示從隱式輻射場到顯式輻射場的轉變。它通過利用3D高斯作為靈活高效的表示,利用了這兩種方法的優勢。這些高斯系數經過優化,可以準確地表示場景,結合了基于神經網絡的優化和顯式結構化數據存儲的優點。這種混合方法旨在通過更快的訓練和實時性能實現高質量渲染,特別是對于復雜的場景和高分辨率輸出。3D高斯表示公式化為:

上下文和術語

許多技術和研究學科與3D GS有著密切的關系,下文將對其進行簡要描述。

場景重建與渲染:粗略地說,場景重建涉及從圖像或其他數據的集合創建場景的3D模型。渲染是一個更具體的術語,專注于將計算機可讀信息(例如,場景中的3D對象)轉換為基于像素的圖像。早期的技術基于光場生成逼真的圖像。structure-from-motion(SfM)和多視圖立體(MVS)算法通過從圖像序列估計3D結構進一步推進了這一領域。這些歷史方法為更復雜的場景重建和渲染技術奠定了基礎。

神經渲染與輻射場:神經渲染將深度學習與傳統圖形技術相結合,以創建照片級真實感圖像。早期的嘗試使用卷積神經網絡(CNNs)來估計混合權重或紋理空間解決方案。輻射場表示一個函數,該函數描述了通過空間中每個點在每個方向上傳播的光量。NeRFs使用神經網絡對輻射場進行建模,從而實現詳細逼真的場景渲染。

體積表示和Ray-Marching:體積表示不僅將目標和場景建模為曲面,還將其建模為填充了材質或空白空間的體積。這種方法可以更準確地渲染霧、煙或半透明材料等現象。Ray-Marching是一種與體積表示一起使用的技術,通過增量跟蹤穿過體積的光的路徑來渲染圖像。NeRF分享了體積射線行進的相同精神,并引入了重要性采樣和位置編碼來提高合成圖像的質量。在提供高質量結果的同時,體積射線行進在計算上是昂貴的,這促使人們尋找更有效的方法,如3D GS。

基于點的渲染:基于點的渲染是一種使用點而不是傳統多邊形來可視化3D場景的技術。這種方法對于渲染復雜、非結構化或稀疏的幾何數據特別有效。點可以用額外的屬性來增強,如可學習的神經描述符,并有效地渲染,但這種方法可能會遇到諸如渲染中的漏洞或混疊效應等問題。3D GS通過使用各向異性高斯來擴展這一概念,以實現場景的更連續和更有凝聚力的表示。

顯式輻射場的3D高斯

3D GS在不依賴神經組件的情況下,在實時、高分辨率圖像渲染方面取得了突破。

學習得到的3D高斯用于新視角合成

考慮一個由(數百萬)優化的3D高斯表示的場景。目標是根據指定的相機姿勢生成圖像。回想一下,NeRF是通過計算要求很高的體積射線行進來完成這項任務的,對每個像素的3D空間點進行采樣。這種模式難以實現高分辨率圖像合成,無法實現實時渲染速度。與此形成鮮明對比的是,3D GS首先將這些3D高斯投影到基于像素的圖像平面上,這一過程被稱為“splatting”(圖3a)。然后,3D GS對這些高斯進行排序,并計算每個像素的值。如圖所示,NeRF和3D GS的渲染可以被視為彼此的逆過程。在接下來的內容中,我們從3D高斯的定義開始,這是3D GS中場景表示的最小元素。接下來描述如何將這些3D高斯用于可微分渲染。最后介紹了3D GS中使用的加速技術,這是快速渲染的關鍵。

三維高斯的性質:三維高斯的特征是其中心(位置)μ、不透明度α、三維協方差矩陣∑和顏色c。對于與視圖相關的外觀,c由球面諧波表示。所有屬性都是可學習的,并通過反向傳播進行優化。

Frustum Culling:給定指定的相機位姿,此步驟將確定哪些3D高斯位于相機的平截頭體之外。通過這樣做,給定視圖之外的3D高斯將不會參與后續計算,從而節省計算資源。

Splatting:**在該步驟中,3D高斯(橢球)被投影到2D圖像空間(橢球)中用于渲染。給定觀看變換W和3D協方差矩陣∑,投影的2D協方差矩陣∑′使用以下公式計算:

其中J是投影變換的仿射近似的Jacobian矩陣。

按像素渲染:在深入研究3D GS的最終版本之前,我們首先詳細介紹了其更簡單的形式,以深入了解其工作機制。3D GS利用多種技術來促進并行計算。給定像素x的位置,其到所有重疊高斯的距離,即這些高斯的深度,可以通過觀看變換W來計算,形成高斯N的排序列表。然后,采用阿爾法合成來計算該像素的最終顏色:

其中是學習的顏色,最終不透明度是學習的不透明度和高斯值的乘積:

其中x′和μ是投影空間中的坐標。考慮到生成所需的排序列表很難并行化,因此與NeRF相比,所描述的渲染過程可能會更慢,這是一個合理的擔憂。事實上,這種擔憂是有道理的;當使用這種簡單的逐像素方法時,渲染速度可能會受到顯著影響。為了實現實時渲染,3DGS做出了一些讓步來適應并行計算。

Tiles (Patches):為了避免為每個像素推導高斯系數的成本計算,3D GS將精度從像素級轉移到patch級細節。具體來說,3D GS最初將圖像劃分為多個不重疊的塊,在原始論文中稱為“tiles”。圖3b提供了tiles的圖示。每個瓦片包括16×16個像素。3D GS進一步確定哪些tiles與這些投影的高斯圖相交。假設投影的高斯可能覆蓋多個tiles,邏輯方法包括復制高斯,為每個副本分配相關tiles的標識符(即tile ID)。

并行渲染:在復制之后,3D GS將各個tile ID與從每個高斯的視圖變換獲得的深度值相組合。這生成字節的未排序列表,其中高位表示tile ID,低位表示深度。通過這樣做,排序后的列表可以直接用于渲染(即alpha合成)。圖3c和圖3d提供了這些概念的視覺演示。值得強調的是,渲染每個tile和像素都是獨立發生的,這使得這個過程非常適合并行計算。另一個好處是,每個tile的像素都可以訪問公共共享內存,并保持統一的讀取序列,從而能夠以更高的效率并行執行alpha合成。在原始論文的官方實現中,該框架將tile和像素的處理分別視為類似于CUDA編程架構中的塊和線程。

簡而言之,3D GS在前向處理階段引入了幾種近似,以提高計算效率,同時保持高標準的圖像合成質量。

3D Gaussian Splatting的優化

3D GS的核心是一個優化過程,旨在構建大量的3D高斯集合,準確捕捉場景的本質,從而促進自由視點渲染。一方面,3D高斯的特性應該通過可微分渲染來優化,以適應給定場景的紋理。另一方面,能夠很好地表示給定場景的3D高斯數是預先未知的。一個很有前途的途徑是讓神經網絡自動學習3D高斯密度。我們將介紹如何優化每個高斯的性質以及如何控制高斯的密度。這兩個過程在優化工作流程中是交錯的。由于在優化過程中有許多手動設置的超參數,為了清晰起見,我們省略了大多數超參數的符號。

參數優化

損失函數:一旦圖像的合成完成,就將損失計算為渲染圖像和GT的差:

3D-GS的損失函數與NeRFs的損失函數略有不同。由于耗時的ray-marching,NeRF通常在像素級而不是圖像級進行計算。

參數更新:3D高斯的大多數特性可以直接通過反向傳播進行優化。需要注意的是,直接優化協方差矩陣∑會導致非正半定矩陣,這不符合通常與協方差矩陣相關的物理解釋。為了避免這個問題,3D GS選擇優化四元數q和3D矢量s。q和s分別表示旋轉和縮放。這種方法允許協方差矩陣∑被重構如下:

密度控制

初始化:3D GS從SfM或隨機初始化的稀疏點的初始集合開始。然后,采用點加密和修剪來控制三維高斯的密度。

點密集化:在點密集化階段,3D GS自適應地增加高斯密度,以更好地捕捉場景的細節。這一過程特別關注幾何特征缺失的區域或高斯分布過于分散的區域。密集化在一定次數的迭代之后執行,目標是表現出大的視圖空間位置梯度(即,高于特定閾值)的高斯。它涉及在重建不足的區域克隆小高斯,或在重建過度的區域分裂大高斯。對于克隆,將創建高斯的副本,并將其移向位置梯度。對于分裂,用兩個較小的高斯代替一個較大的高斯,將它們的規模縮小一個特定的因子。該步驟尋求高斯在3D空間中的最佳分布和表示,從而提高重建的整體質量。

點修剪:點修剪階段涉及去除多余或影響較小的高斯,在某種程度上可以被視為一個正則化過程。這一步驟是通過消除幾乎透明的高斯(α低于指定閾值)和在世界空間或視圖空間中過大的高斯來執行的。此外,為了防止輸入相機附近高斯密度的不合理增加,在一定次數的迭代后,將高斯的阿爾法值設置為接近零。這允許控制必要的高斯密度的增加,同時能夠淘汰多余的高斯。該過程不僅有助于節省計算資源,還確保模型中的高斯對場景的表示保持精確和有效。

應用領域和任務

3D GS的變革潛力遠遠超出了其理論和計算的進步。本節深入探討3D GS正在產生重大影響的各種開創性應用領域,如機器人、場景重建和表示、人工智能生成的內容、自動駕駛,甚至其他科學學科。3D GS的應用展示了其多功能性和革命性的潛力。在這里,我們概述了一些最著名的應用領域,深入了解3D GS如何在每個領域形成新的前沿。

SLAM

SLAM是機器人和自主系統的核心計算問題。它涉及機器人或設備在未知環境中理解其位置的挑戰,同時建圖環境布局。SLAM在各種應用中至關重要,包括自動駕駛汽車、增強現實和機器人導航。SLAM的核心是創建未知環境的地圖,并實時確定設備在該地圖上的位置。因此,SLAM對計算密集型場景表示技術提出了巨大的挑戰,同時也是3D GS的良好試驗臺。

3D GS作為一種創新的場景表示方法進入SLAM領域。傳統的SLAM系統通常使用點/曲面云或體素網格來表示環境。相比之下,3D GS利用各向異性高斯來更好地表示環境。這種表示提供了幾個好處:1)效率:自適應地控制3D高斯的密度,以便緊湊地表示空間數據,減少計算負載。2) 準確性:各向異性高斯可以進行更詳細、更準確的環境建模,尤其適用于復雜或動態變化的場景。3) 適應性:3D GS可以適應各種規模和復雜的環境,使其適用于不同的SLAM應用。一些創新研究在SLAM中使用了3D高斯飛濺,展示了這種范式的潛力和多功能性。

動態場景建模

動態場景建模是指捕捉和表示隨時間變化的場景的三維結構和外觀的過程。這涉及到創建一個數字模型,該模型準確地反映場景中對象的幾何體、運動和視覺方面。動態場景建模在各種應用中至關重要,包括虛擬和增強現實、3D動畫和計算機視覺。4D高斯散射(4D GS)將3D GS的概念擴展到動態場景。它結合了時間維度,允許對隨時間變化的場景進行表示和渲染。這種范式在實時渲染動態場景的同時保持高質量的視覺輸出方面提供了顯著的改進。

AIGC

AIGC是指由人工智能系統自主創建或顯著改變的數字內容,特別是在計算機視覺、自然語言處理和機器學習領域。AIGC的特點是能夠模擬、擴展或增強人工生成的內容,實現從逼真圖像合成到動態敘事創作的應用。AIGC的意義在于其在各個領域的變革潛力,包括娛樂、教育和技術發展。它是不斷發展的數字內容創作格局中的一個關鍵元素,為傳統方法提供了可擴展、可定制且通常更高效的替代方案。

3D GS的這種明確特性有助于實現實時渲染功能以及前所未有的控制和編輯水平,使其與AIGC應用程序高度相關。3D GS的顯式場景表示和可微分渲染算法完全符合AIGC生成高保真、實時和可編輯內容的要求,這對虛擬現實、交互式媒體等領域的應用至關重要。

自動駕駛

自動駕駛旨在讓車輛在沒有人為干預的情況下導航和操作。這些車輛配備了一套傳感器,包括相機、LiDAR以及雷達,并結合了先進的算法、機器學習模型和強大的計算能力。中心目標是感知環境,做出明智的決策,安全高效地執行機動。自動駕駛對交通運輸具有變革潛力,提供了關鍵好處,如通過減少人為失誤提高道路安全性,增強無法駕駛者的機動性,以及優化交通流量,從而減少擁堵和環境影響。

自動駕駛汽車需要感知和解讀周圍環境,才能安全行駛。這包括實時重構駕駛場景,準確識別靜態和動態物體,并了解它們的空間關系和運動。在動態駕駛場景中,由于其他車輛、行人或動物等移動物體,環境不斷變化。實時準確地重建這些場景對于安全導航至關重要,但由于所涉及元素的復雜性和可變性,這是一項挑戰。在自動駕駛中,3D GS可以用于通過將數據點(例如從LiDAR等傳感器獲得的數據點)混合成內聚和連續的表示來重建場景。這對于處理不同密度的數據點和確保場景中靜態背景和動態目標的平滑準確重建特別有用。到目前為止,很少有作品使用3D高斯對動態駕駛/街道場景進行建模,并且與現有方法相比,在場景重建方面表現出優異的性能。

性能對比

本節通過展示我們之前討論的幾種3D GS算法的性能來提供更多的經驗證據。3D GS在許多任務中的不同應用,加上每個任務的定制算法設計,使得在單個任務或數據集中對所有3D GS算法進行統一比較變得不切實際。因此,我們在3D GS領域中選擇了三個具有代表性的任務進行深入的性能評估。性能主要來源于原始論文,除非另有說明。

定位性能

靜態場景渲染性能

動態場景渲染性能

駕駛場景渲染性能

數字人體性能

未來研究方向

盡管近幾個月來3D GS的后續工作取得了顯著進展,但我們認為仍存在一些有待克服的挑戰。

  • 數據高效的3D GS解決方案:從有限的數據點生成新穎的視圖和重建場景是非常令人感興趣的,特別是因為它們有可能以最小的輸入增強真實感和用戶體驗。最近的進展已經探索了使用深度信息、密集概率分布和像素到高斯映射來促進這種能力。然而,仍然迫切需要在這一領域進行進一步探索。此外,3D GS的一個顯著問題是在觀測數據不足的地區出現偽影。這一挑戰是輻射場渲染中的一個普遍限制,因為稀疏數據往往會導致重建不準確。因此,在這些稀疏區域中開發新的數據插值或積分方法代表了未來研究的一條很有前途的途徑。
  • 內存高效的3D GS解決方案:雖然3D GS展示了非凡的能力,但其可擴展性帶來了重大挑戰,尤其是當與基于NeRF的方法并置時。后者得益于僅存儲學習的MLP的參數的簡單性。在大規模場景管理的背景下,這種可擴展性問題變得越來越嚴重,其中計算和內存需求顯著增加。因此,迫切需要在訓練階段和模型存儲期間優化內存利用率。探索更高效的數據結構和研究先進的壓縮技術是解決這些限制的有希望的途徑。
  • 高級渲染算法:目前3D GS的渲染管道是向前的,可以進一步優化。例如,簡單的可見性算法可能導致高斯深度/混合順序的劇烈切換。這突出了未來研究的一個重要機會:實現更先進的渲染算法。這些改進的方法應旨在更準確地模擬給定場景中光和材料特性的復雜相互作用。一種有前景的方法可能涉及將傳統計算機圖形學中的既定原理同化和適應到3D GS的特定環境中。在這方面值得注意的是,正在進行的將增強渲染技術或混合模型集成到3D GS當前計算框架中的努力。此外,逆渲染及其應用的探索為研究提供了肥沃的土壤。
  • 優化和正則化:各向異性高斯雖然有利于表示復雜的幾何形狀,但會產生視覺偽像。例如,那些大的3D高斯,尤其是在具有依賴于視圖的外觀的區域,可能會導致彈出的偽影,視覺元素突然出現或消失,破壞沉浸感。在3D GS的正則化和優化方面有相當大的探索潛力。引入抗鋸齒可以緩解高斯深度和混合順序的突然變化。優化算法的增強可能會更好地控制空間中的高斯系數。此外,將正則化納入優化過程可以加速收斂、平滑視覺噪聲或提高圖像質量。此外,如此大量的超參數影響了3D GS的泛化,這急需解決方案。
  • 網格重建中的3D高斯:3D GS在網格重建中的潛力及其在體積和表面表示譜中的位置尚待充分探索。迫切需要研究高斯基元如何適用于網格重建任務。這一探索可以彌合體積繪制和傳統基于表面的方法之間的差距,為新的繪制技術和應用提供見解。
  • 賦予3D GS更多可能性:盡管3D GS具有巨大的潛力,但3D GS的全部應用范圍在很大程度上仍未開發。一個很有前途的探索途徑是用額外的屬性來增強3D高斯,例如為特定應用量身定制的語言和物理屬性。此外,最近的研究已經開始揭示3D GS在幾個領域的能力,例如,相機姿態估計、手-物體相互作用的捕捉和不確定性的量化。這些初步發現為跨學科學者進一步探索3D GS提供了重要機會。

結論

據我們所知,這篇綜述首次全面概述了3D GS,這是一項革命性的顯式輻射場和計算機圖形學技術。它描繪了傳統NeRF方法的范式轉變,突出了3D GS在實時渲染和增強可控性方面的優勢。我們的詳細分析證明了3D GS在實際應用中的優勢,特別是那些需要實時性能的應用。我們提供了對未來研究方向和該領域尚未解決的挑戰的見解。總的來說,3D GS是一項變革性技術,有望對3D重建和表示的未來發展產生重大影響。這項調查旨在作為一項基礎資源,推動這一快速發展領域的進一步勘探和進展。

原文鏈接:https://mp.weixin.qq.com/s/jH4g4Cx87nPUYN8iKaKcBA

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2020-06-02 19:14:59

Kubernetes容器開發

2017-07-26 10:21:46

DockerLinux容器

2024-05-07 06:36:59

2024-04-28 09:15:22

人工智能人形機器人

2023-09-17 23:01:39

Python編程語言

2024-08-26 08:16:13

2016-05-19 10:31:35

數據處理CassandraSpark

2022-02-21 10:06:14

自動駕駛汽車智能

2023-08-08 12:12:07

自動駕駛預測

2024-09-05 11:46:08

2021-03-02 16:25:13

手機iPhone安卓

2020-06-16 14:13:50

Kubernetes容器Linux

2022-02-14 11:23:43

AI谷歌自動駕駛

2024-03-19 14:43:17

自動駕駛激光

2021-12-03 16:59:07

比亞迪momentarobotaxi

2021-11-15 23:53:54

自動駕駛機器物聯網

2020-04-29 10:10:45

網絡安全自動駕駛漏洞

2023-10-06 13:38:41

自動駕駛特斯拉視覺

2020-11-17 11:39:00

JavaScript前端編程語言

2024-04-01 09:39:59

自動駕駛數據
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 亚洲国产一区视频 | 中文字幕在线视频观看 | 一级片在线观看 | 97久久精品午夜一区二区 | 欧洲精品久久久久毛片完整版 | 成人性视频免费网站 | 91精品国产高清一区二区三区 | 精品久久久久久红码专区 | 91一区二区三区在线观看 | 欧美日韩精品国产 | 久久久久国产成人精品亚洲午夜 | 精品久久久久久久人人人人传媒 | 亚洲欧美视频一区 | cao在线| 欧美日韩一区二区在线播放 | 在线观看中文字幕一区二区 | 国产资源视频 | 在线观看免费av网 | 精品国产一区二区国模嫣然 | 丁香五月缴情综合网 | 欧美性生活视频 | 激情一区二区三区 | 国产91视频免费 | 国产91久久久久久久免费 | 亚洲精品18 | 成人h视频| av在线免费观看网站 | 欧美黑人激情 | 亚洲一区视频在线 | 污视频免费在线观看 | 亚洲a网| 精品国产精品一区二区夜夜嗨 | 国产一区二区三区精品久久久 | 久久精品一区二区 | 国内精品久久精品 | 婷婷综合网 | 日韩不卡一区二区 | 久久久久久成人 | 国产福利在线看 | 久久久激情视频 | 成人小视频在线免费观看 |