成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

NeRF成為過去?三維重建邁向3D GS新時代!(復旦大學最新綜述)

人工智能 智能汽車
本文對過去一年的相關論文進行了全面的綜述。我們根據特征和應用對分類法進行了調查,介紹了3D Gaussian Splatting的理論基礎。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

寫在前面&筆者的個人理解

3D Gaussian Splatting(3D-GS)已成為計算機圖形學領域的一個重大進步,它提供了明確的場景表示和新穎的視圖合成,而不依賴于神經網絡,如神經輻射場(NeRF)。這項技術在機器人、城市地圖、自主導航和虛擬現實/增強現實等領域有著不同的應用。鑒于3D Gaussian Splatting的日益流行和研究的不斷擴展,本文對過去一年的相關論文進行了全面的綜述。我們根據特征和應用對分類法進行了調查,介紹了3D Gaussian Splatting的理論基礎。我們通過這項調查的目標是讓新的研究人員熟悉3D Gaussian Splatting,為該領域的開創性工作提供寶貴的參考,并啟發未來的研究方向。

總結來說,本文的主要貢獻如下:

  • 具有系統分類學的統一框架。我們引入了一個統一實用的框架來對現有作品進行3D高斯分類。該框架將該領域劃分為6個主要方面。此外還提供了3D高斯應用的詳細分類法,提供了該領域的全面視角。
  • 全面和最新的調查。我們的綜述對3D-GS進行了廣泛而最新的調研,涵蓋了經典和前沿方法。對于每個類別,我們提供細粒度的分類和簡潔的摘要。
  • 對3D-GS未來方向的見解。我們強調了當前研究的技術局限性,并為未來的工作提出了幾個有希望的途徑,旨在激勵這一快速發展的領域取得進一步進展。特別強調探索3D-GS的潛在作用,為其未來應用提供見解。

相關背景

數據集:利用各種公開可用的數據集來評估3D-GS在各種任務上的性能。表1概述了3D-GS在優化、重建、操作、生成、感知和人體方面的一些數據集。

Gaussian Intrinsic Properties的優化

盡管已經展示了3D高斯Splatting的能力和效率,但在以下有希望的方向上仍有進一步改進的空間(如圖3所示):(a)使3D-GS更具內存效率對于實時渲染至關重要;(b)可以進一步提高渲染圖像的質量;(c)降低用于合成新穎視圖的圖像的成本;(d)使3D Gaussians能夠用真實的動力學來表示動態場景。

效率

代表場景的數百萬高斯內的參數需要巨大的存儲空間,因此在保持質量的同時減少內存使用對于實時渲染至關重要且有益。

在grid-guided NeRF的啟發下,Lu提出了Scaffold GS,它在保持可比渲染質量和速度的同時,具有內存效率。Scaffold GS利用底層場景結構來幫助修剪過度擴展的高斯球。它利用SfM中的初始化點來構建錨點的稀疏網格,每個錨點上都附加了一組可學習的高斯。這些高斯的屬性是根據特定的錨點特征實時預測的。此外,在通過修剪操作消除重要和瑣碎錨的地方,采用由神經高斯的聚合梯度引導的策略來生長錨點。增加了一個額外的體積正則化損失項,以鼓勵高斯系數較小,重疊最小。

挑戰:用復雜的細節來表現場景需要大量的3D高斯。Gaussians所需的巨大存儲空間不僅阻礙了它在邊緣設備上的應用,而且限制了渲染速度。

機會:現有的矢量量化和對不重要高斯方法的修剪已經證明了它們在壓縮靜態場景的3D高斯方面的有效性。然而,將它們擴展到動態場景并提高動態表示的緊湊性仍然沒有得到充分的探索。

真實性

混疊問題和偽影在splatting過程中出現,解決它們顯然有利于渲染圖像的質量和真實性。此外,還可以進一步提高場景中反射的真實性。

Yan介紹了一種在3DGS中減少混疊效應的多尺度方法。他們假設,這樣的問題主要是由填充在具有復雜3D細節的區域中的大量Gaussionssplatting引起的。因此,他們建議以不同的細節級別來表示場景。對于每個級別,在每個體素中低于特定大小閾值的小的和細粒度的高斯被聚集成較大的高斯,然后插入到隨后的較粗級別中。這些多尺度高斯有效地對高頻和低頻信號進行編碼,并使用原始圖像及其下采樣對應圖像進行訓練。在渲染過程中,相應地選擇具有適當比例的高斯,這導致了質量的提高和渲染速度的提高。

挑戰:盡管3D高斯投影到2D圖像上大大加快了渲染過程,但它使遮擋的計算變得復雜,從而導致照明估計較差。同時,欠正則化的3D-GS無法捕捉精確的幾何體,也無法原生地生成精確的法線。此外,混疊問題和偽影會降低渲染圖像的質量,尤其是在為看不見的相機視圖進行合成時。

機會:與視圖相關的變化對于具有鏡面反射目標和復雜反射的場景至關重要。因此,賦予3D-GS捕捉顯著外觀屬性的能力有利于增強渲染的真實性。為了更好地減少混疊效應,值得研究在不影響其表達能力的情況下更有效地消除多余高斯的方法。此外,由于缺乏嚴格的正態估計和幾何正則化,阻礙了圖像質量的提高,可以進一步彌補這一不足。

開銷

為了合成高質量的新穎視圖,所需的圖像量是巨大的。放松這一限制對于進一步探索3D-GS的潛力是可取的。

已經提出了一些工作來解決3D-GS中的few-shot問題。Chung引入了一種深度正則化方法來避免few-shot圖像合成中的過擬合。通過分別利用從COLMAP和單目深度估計模型獲得的稀疏和密集深度圖來引入幾何約束。為了防止過擬合,該方法對幾何平滑度采用無監督約束,并利用Canny邊緣檢測器來避免深度變化顯著的邊緣區域的正則化。

挑戰:3D-GS的性能在很大程度上取決于初始化稀疏點的數量和準確性。這種默認的初始化方法自然與降低圖像成本的目標相矛盾,并使其難以實現。此外,初始化不充分可能導致過擬合,并產生過平滑的結果。

機會:使用額外的單目深度估計模型可以提供有用的幾何先驗來調整3D高斯,以有效覆蓋場景。然而,這種對估計精度的強烈依賴性可能導致具有復雜表面的場景的重建較差,其中模型無法輸出準確的預測。有希望進一步探索有效加密和調整3D高斯的方法,并充分利用幾何信息來提高渲染質量。

物理性

通過將3D Gaussians的能力從靜態場景擴展到4D場景,增強3D Gaussian的能力是有益的,4D場景可以結合與真實世界物理一致的動力學。

在動態場景中,學習變形比在每個時間步長對場景建模更方便。吳提出了一種新的實時3D動態場景渲染框架。他們的框架沒有直接為每個時間戳構建3D高斯,而是首先使用時空編碼器,利用多分辨率K-Planes和MLP進行有效的特征提取。然后,多頭MLP充當解碼器,并基于輸入特征分別預測3D高斯的位置、旋轉和縮放的變形。這種方法學習高斯變形場,從而實現高效的內存使用和快速收斂。

挑戰:輸入點云的內在稀疏性對重建具有真實動力學的場景提出了重要挑戰。在保持質量的同時捕捉物理上合理的動力學更具挑戰性,例如,以高保真度渲染陰影的變化。

機會:具有大運動的目標可能會在連續幀之間造成不自然的失真,將神經網絡與學習的特定場景動力學相結合可以提高變形的保真度。當前用于重建動態場景的方法主要關注室內目標級變形,并且它們仍然需要從多個相機視圖拍攝的圖像以及精確的相機姿勢。將3D-GS擴展到更大的動態場景并放松這種限制對現實世界的應用非常有益。

重建

如前所述,3D-GS在從新穎視點捕捉和渲染3D場景中的廣泛采用可歸因于其卓越的渲染速度和產生逼真結果的能力。與NeRFs類似,3D-GS中曲面網格的提取(如圖4a所示)是一個基本但必不可少的方面。有必要進行進一步的調查,以應對具有挑戰性的場景,如單眼或few-shot的情況(如圖4b所示),這在自動駕駛等實際應用中很常見。此外,3D-GS的訓練時間約為分鐘,實現了實時渲染并有助于動態場景的重建(如圖4c所示)。

曲面網格提取

曲面網格提取是計算機視覺中的一個經典挑戰。然而,通過3D高斯分布的場景的顯式表示為該任務引入了顯著的復雜性。因此,已經提出了幾種新的方法來有效地解決這種復雜性并促進表面網格的提取。

Guédon介紹了用于3D網格重建和高質量網格渲染的SuGaR。SuGaR包含了一個正則化術語,以促進高斯和場景表面之間的對齊。然后使用泊松重建方法來利用這種對齊,并從高斯方程中導出網格。為了將高斯圖綁定到網格表面,SuGaR提供了一種可選的細化策略,該策略使用高斯splatting渲染來優化高斯圖和網格。然而,對高斯圖的強制性限制會導致渲染質量下降。然而,這些限制會提高網格提取的性能。同時,陳介紹了NeuSG,它聯合優化了NeuS和3D-GS,以實現高度精細的表面恢復。與SuGaR中的正則化項類似,NeuSG結合了正則化子,以確保由極薄的3D高斯生成的點云緊密附著在下表面上。這種方法利用了聯合優化的優勢,從而生成具有復雜細節的綜合曲面。

單目和Few-shot重建

3D-GS的引入代表了單目和few-shot重建任務的一個有希望的進展。然而,這些任務中的一個重大挑戰是缺乏幾何信息。因此,許多研究都致力于解決這一挑戰,并提出創新的方法來克服缺乏透視幾何信息的問題。

起初,用于few-shot3D重建的技術允許用有限量的輸入數據來重建3D場景。Charatan展示了PixelSplat,用于從圖像對進行3D重建。PixelSplat的主要重點是通過提出一種多視圖核極變換器來解決比例因子推理的挑戰。PixelSplat利用尺度感知特征圖,提出了一種預測高斯基元集參數的新方法。場景通過像素對齊的高斯進行參數化,從而在訓練過程中隱式生成或刪除高斯基元。這種策略有助于避免局部極小值,同時確保梯度流的平滑。

單目3D重建能夠使用單個相機從2D圖像推斷3D場景的形狀和結構。單目3D重建的關鍵在于對圖像中的透視關系、紋理和運動模式進行細致的分析。通過采用單目技術,可以準確估計物體之間的距離并辨別場景的整體形狀。Szymanowicz介紹了Splatter Image,這是一種用于單目3D目標重建的超快速方法。這種方法利用2D CNN架構來有效地處理圖像,預測偽圖像,其中每個像素由彩色3D高斯表示。Splatter Image演示了在合成和真實基準上的快速訓練和評估,而不需要標準的相機位姿。此外,它還能夠通過結合跨視圖注意力進行few-shot3D重建。

動態場景重建

3D-GS的高渲染速度和分辨率支持動態場景重建,包括人體跟蹤和大型城市場景重建。

林介紹了基于3D-GS的高斯流,用于快速動態3D場景重建和實時渲染,方便了靜態和動態3D場景的分割、編輯和合成。該方法引入了雙域變形模型(DDDM),通過時域的多項式擬合和頻域的傅立葉級數擬合來捕捉每個屬性的時間相關殘差。高斯流能夠消除為每個幀訓練單獨的高斯算子的需要,或者引入額外的隱式神經場來建模3D動力學。

挑戰:由于3D-GS是一個用于重建的顯式表示模型,每個高斯核可能不一定位于某個目標的表面上,這對表面網格提取提出了挑戰。需要約束高斯核以附著到目標的表面,但這可能會導致渲染精度降低。

機會:(i)對于few-shot重建,與擴散模型集成或消除對相機位姿的要求可以促進大規模訓練。(ii)此外,對于表面網格提取,引入光照分解的方法可以提取更真實的表面紋理。(iii)在動態場景重建中,優先考慮速度和圖像細節保存之間的平衡優化可能是相當可觀的。

Manipulation

由于3D-GS的顯式特性,它對于編輯任務具有很大的優勢,因為每個3D高斯都單獨存在(圖5)。通過在應用所需約束的情況下直接操縱3D高斯,可以輕松編輯3D場景。

Text-guided Manipulation

近年來,文本引導操作的數量激增。因此,文本引導操作由于其接近人類語音而引起了越來越多的關注。此外,隨著對大型語言模型的訪問變得越來越廣泛,LLM引導操作的使用有望成為未來的發展方向。方向GaussianEditor介紹了使用3D Gaussians和文本指令對3D場景進行精確編輯的方法。第一步涉及提取與所提供的文本指令相對應的感興趣區域(RoI),并將其與3D高斯對齊。然后,該高斯RoI用于控制編輯過程,從而實現細粒度調整。

Non-rigid Manipulation

非剛性目標可以改變和變形形狀,從而能夠更逼真地模擬軟目標、生物組織和流體。這些目標提供了幾個優點,包括提高真實性和改進對目標變形和行為的描述。此外,這些模型允許不同的效果,因為它們可以通過變形來響應外力和約束。然而,非剛性物體也存在某些挑戰。它們的特點是其復雜性,在編輯和模擬過程中需要仔細考慮目標變形、連續性和碰撞等因素。此外,非剛性目標的實時交互性能在應用中可能會受到限制,特別是在處理大規模和復雜的非剛性目標時。

Time-efficient Editing

雖然3DGS確實是一種快速渲染技術,但在編輯3D高斯圖時,它的實時操作至關重要。因此,迫切需要開發具有時間效率的3DGS的編輯方法。

黃提出了Point'nMove,通過曝光區域修復實現場景目標的交互式操作。直觀的目標選擇和實時編輯增強了交互性。為了實現這一點,他們利用了高斯Splatting輻射場的明確性質和速度。顯式表示公式允許開發雙階段自提示分割算法,其中2D提示點用于創建3D掩模。該算法有助于遮罩細化和合并,最大限度地減少更改,為場景修復提供良好的初始化,并實現實時編輯,而無需每次編輯訓練。同時,陳介紹了用于3D編輯的GaussianEditor,該編輯器使用高斯splatting來增強整個編輯過程的控制和效率。GaussianEditor采用高斯語義跟蹤來準確識別和定位特定的編輯區域。然后,它利用分層高斯splatting(HGS)在流動性和穩定性之間取得平衡,從而在隨機原理的指導下產生詳細的結果。此外,GaussianEditor還包括用于高斯splatting的專用3D修復算法,該算法簡化了目標的移除和集成,并顯著縮短了編輯時間。

4D Manipulation

隨著動態神經3D表示的引入,4D場景重建領域取得了顯著進展。這些進步極大地提高了捕捉和描繪動態場景的能力。然而,盡管取得了這些突破,這些4D場景的交互式編輯仍然存在重大障礙。主要挑戰在于保證4D編輯過程中的時空一致性和保持高質量,同時提供交互式和高級編輯功能。

Shao介紹了使用文本指令編輯動態4D 資產的Control4D。Control4D旨在克服4D編輯中常見的挑戰,特別是現有4D表示的局限性以及基于擴散的編輯器導致的不一致編輯結果。GaussianPlanes最初被提出作為一種新的4D表示,它通過在3D空間和時間中基于平面的分解來增強高斯splatting的結構。這種方法提高了4D編輯的效率和穩健性。此外,利用4D生成器從基于擴散的編輯器生成的編輯圖像中學習更連續的生成空間,有效地增強了4D編輯的一致性和質量。

挑戰:首先,在文本引導操作中,興趣區域(ROI)的選擇依賴于分割模型的性能,而分割模型受到噪聲的影響。其次,在編輯3D高斯圖時,經常會忽略幾個重要的物理方面。最后,在4D編輯中實現幀一致性仍有改進的空間。

機會:i)在3D-GS的操作中,現有的2D擴散模型在為復雜的提示提供足夠的指導方面遇到了困難,導致在3D編輯時受到限制。因此,高效準確的2D擴散模型可以作為編輯3D高斯的更好指導。ii)現有方法主要通過最小的運動變化和準確的相機姿態進行了測試。將其適用范圍擴大到涉及激烈運動的場景仍然是一個有待調查的領域。

生成

由于在擴散模型和3D表示方面取得了重大進展,從文本/圖像提示生成3D資產現在是AIGC領域一項很有前途的任務。此外,采用3D-GS作為目標(圖6a)和場景(圖6b)的顯式表示,可以實現快速甚至實時渲染。此外,一些工作側重于改進分數蒸餾采樣(SDS)管道中固有的耗時優化過程(圖6c)。雖然3D生成已經顯示出一些令人印象深刻的結果,但4D生成(圖6d)仍然是一個具有挑戰性且未充分探索的主題。

Object-level 3D Generation

3D擴散模型在3D生成中具有良好的3D一致性,而二維擴散模型具有較強的泛化能力。Yi將兩者的優點結合起來,提出了用于快速生成和實時渲染的GaussianDreamer。GaussianDreamer首先在3D擴散模型的幫助下初始化3D Gaussians,以獲取幾何先驗,并引入噪聲點增長和顏色擾動兩種操作來補充初始化的Gaussianss,以進一步豐富內容。隨后,借助于2D擴散模型和SDS的文本提示,對3D高斯進行了優化。然而,這種方法仍然存在多人臉問題,并且無法生成大規模場景。

Scene-level 3D Generation

Vilesov提出CG3D以合成方式生成可縮放的3D資產,以僅從文本輸入形成物理逼真的場景。CG3D用一組高斯表示場景中的每個目標,并將目標轉換為具有旋轉、平移和縮放等交互參數的合成坐標。

3D生成加速

具有NeRF表示的2D提升方法因其耗時的優化過程而臭名昭著。因此,唐提出了DreamGaussian,通過用3D Gaussian Splatting代替NeRF表示來提高3D生成效率。具體而言,DreamGaussian通過高斯splatting的漸進加密簡化了優化環境,該方法用隨機位置初始化高斯,并定期加密它們,以與生成進度保持一致。為了提高生成質量,它進一步引入了一種高效的網格提取算法,該算法具有逐塊局部密度查詢和執行圖像空間監督的UV空間紋理細化階段。因此,DreamGaussian可以在2分鐘內從單目圖像生成高質量的紋理網格。

盡管與基于NeRF的方法相比,利用3D-GS的文本到3D方法具有時間效率優勢,但它們仍然會經歷較長的生成時間。這主要歸因于SDS或變分分數蒸餾(VSD)過程中基于梯度的優化所涉及的復雜計算和廣泛迭代。周介紹了Dreamprompt,這是一種嵌入式算法,利用并行計算通過更快地求解ODE來加快蒸餾過程。Dreampromert推廣的Picard迭代算法允許并行化涉及可變維度變化的順序梯度更新步驟。這一功能使Dreamproper非常適合使用3D-GS的3D方法,因為由于其拆分和修剪操作,優化過程可能涉及不同數量的高斯。實驗結果表明,速度提高了4.7倍,對發電質量的影響最小。

Text-to-4D Generation

Ling引入了Align Your Gaussians(AYG),將3D合成擴展到具有額外時間維度的4D生成。4D表示將3D高斯場與變形場相結合,對3D高斯場的場景動力學進行建模,并變換它們的集合以表示目標運動。AYG從生成具有3D感知的多視圖擴散模型和常規文本到圖像模型的初始靜態3D形狀開始。然后,使用文本到視頻模型和文本到圖像模型來優化變形場,以分別捕獲時間動態并保持所有幀的高視覺質量。此外,采用運動放大機制和新的自回歸合成方案來生成和組合多個4D序列,以實現更長的世代。值得注意的是,由于3D高斯的明確性質,可以組合不同的動態場景,每個場景都有自己的高斯集和變形場,從而能夠將多個4D目標組合成大型動態場景。

挑戰:i)合成生成仍然是一個懸而未決的問題,因為大多數方法都不支持這種創建。盡管CG3D提出了一個組成框架,但它只支持物體之間的剛體相互作用。此外,AYG中的組成4D序列不能描述動態目標的拓撲變化。ii)使原始3D-GS中的自適應密度控制操作適應生成框架是不平凡的,因此簡單的方法是固定用于表示目標的高斯數。然而,這樣的設計嚴重限制了模型創建復雜幾何體的能力。

機會:i)多面問題,也稱為Janus問題,存在于大多數2D提升方法中。如上所述,GaussianDreamer通過引入3D先驗來緩解這種不足。有鑒于此,利用3D感知擴散模型或多視圖2D擴散模型可以是進一步改進的可能方向。ii)以各種類型的定制數據作為輸入并讓用戶對生成過程有更多控制權的個性化生成應該是未來工作的一條令人興奮的途徑。iii)當文本提示由模糊信息和復雜邏輯組成時,文本到3D的方法往往會產生不令人滿意的結果。在這方面,增強文本編碼器的語言理解能力也可以提高生成質量。

感知

利用3D-GS,3D感知有可能增強開放詞匯語義目標檢測和定位(圖7a)、3D分割(圖7b)、運動目標象跟蹤(圖7c)和SLAM系統的開發(圖7d)。

檢測

3D場景中的語義目標檢測或定位過程可以顯著增強對環境的理解和感知,并有利于自動駕駛系統和智能制造等應用。受ChatGPT成功的鼓舞,施介紹了專門為開放詞匯查詢任務設計的場景表示語言嵌入式3D高斯,它成功地將量化的緊湊語義特征融入到廣泛的3D高斯中,最大限度地減少了內存和存儲需求。為了緩解不同視角下產生的語義不一致,提出了一種特征平滑程序,利用3D高斯的空間位置和語義不確定性,動態降低嵌入語義特征的空間頻率。同時,Zuo提出了基礎模型嵌入高斯Splatting(FMGS),它集成了3D-GS來表示幾何和外觀,以及多分辨率哈希編碼(MHE)來實現高效的語言嵌入。FMGS旨在解決房間尺度場景中的內存限制問題。此外,為了解決像素錯位的問題,FMGS結合了像素對齊損失,以將相同語義實體的渲染特征距離與像素級語義邊界對齊。FMGS的結果顯示出顯著的多視圖語義一致性和在開放詞匯上下文中定位語義目標的令人印象深刻的性能。

分割

3D場景分割的意義不僅在于提高場景分割的準確性,還在于為真實世界的3D感知任務提供強大的支持。從實時場景編輯和目標去除到目標修復和場景重組,3D場景分割方法的應用無疑拓寬了計算機視覺在虛擬現實和自動駕駛等領域的視野。

2D分割模型的結合可以成為指導3D-GS分割過程的寶貴資產。這種直觀的概念有可能提高分割過程的準確性和效率。Lan介紹了一種3D高斯分割方法,該方法利用2D分割作為監督,為每個3D高斯分配一個目標代碼來表示其分類概率分布。提供指導以通過最小化在特定姿勢處的2D分割圖和渲染的分割圖之間的差異來確保每個3D高斯的準確分類。此外,KNN聚類用于解決3D高斯圖中的語義模糊問題,而統計濾波用于消除不正確分割的3D高斯圖。這種方法成功地獲取了3D場景的語義知識,并在短時間內從特定視點有效地分割多個目標,輸出了令人信服的結果。

跟蹤

3D-GS的使用方便了動態場景的重建。因此,在這些場景中跟蹤動態目標已成為一個新的探索領域,對自動駕駛等應用做出了重大貢獻。

Zhou介紹了DrivingGaussian重構動態大尺度駕駛場景的方法。DrivingGaussian通過在包含移動目標的場景中使用增量靜態3D高斯逐步對靜態背景進行建模。DrivingGaussian利用復合動態高斯圖來準確重建單個目標,恢復它們的位置,并在存在多個移動目標的情況下有效處理遮擋關系。此外,在3D-GS之前使用激光雷達有助于通過捕捉更精細的細節和確保全景一致性來改進場景重建。DrivingGaussian成功實現了高保真度和多攝像頭一致的真實感環繞視圖合成,使其適用于廣泛的任務,包括角落案例的模擬。

SLAM

在3D感知領域,將3D-GS集成到SLAM系統中引起了人們的極大關注。在本節中,我們將探討SLAM的各種應用和進步,這些應用和進步是通過集成3D高斯表示而實現的。此外,本節強調了當前方法在解決現實世界場景中的有效性,并強調了SLAM領域內可能性的持續增長。

由于效率的重要性,Yan提出了GS-SLAM,將3D高斯表示集成到SLAM系統中。GS-SLAM利用了實時可微分的splatting渲染管道,顯著提高了地圖優化和RGB-D重渲染速度。GS-SLAM引入了一種用于擴展3D高斯的自適應策略,旨在有效地重建新觀測到的場景幾何結構。此外,它采用了從粗到細的技術來選擇可靠的3D高斯,提高了相機姿態估計的準確性。GS-SLAM有效地提高了效率和準確性之間的權衡,超過了最近使用神經隱式表示的SLAM方法。

相機位姿估計

相機位姿估計是3D重建和感知領域的一個基礎方面。3D-GS的結合有可能為這一重要主題提供有見地的方法。

在SLAM中,估計6D姿態的任務提出了相當大的挑戰。為了解決這一挑戰,Sun引入了iComMa,將傳統的幾何匹配方法與渲染比較技術相結合。iComMa反轉3D-GS以捕捉姿態梯度信息,用于精確的姿態計算,并采用渲染和比較策略,以確保在優化的最后階段提高精度。此外,還引入了匹配模塊,通過最小化2D關鍵點之間的距離來增強模型對不利初始化的魯棒性。iComMa旨在有效處理各種復雜和具有挑戰性的場景,包括具有顯著角度偏差的情況,同時保持預測結果的高精度。

挑戰:(i)現有的基于3D-GS的動態場景目標跟蹤方法在跟蹤可變形目標(如行人)方面可能會遇到挑戰,這給自動駕駛等系統帶來了困難。(ii)此外,檢測高反射或半透明物體,如電視和鏡子,仍然是一項具有挑戰性的任務,因為3D-GS對這些物體的建模能力有限。(iii)SLAM系統可能對各種因素表現出敏感性,包括運動模糊、大量深度噪聲和劇烈旋轉。(vi)此外,在3D-GS的表示中,高斯分布可以鏈接到多個目標,從而增加了利用特征匹配精確分割單個目標的復雜性。

機會:(i)基于3D-GS的實時跟蹤有潛力應用于各種醫療場景,包括放射治療。(ii)此外,輸入已知的相機本質和密集深度對于執行SLAM至關重要,消除這些依賴性為未來的探索提供了一個有趣的方向。

虛擬人體

學習具有NeRF和SDF等隱式神經表示的虛擬人化身需要很長的優化和渲染時間,并且難以生成令人滿意的質量新穎的身體姿勢。相反,實驗證明,利用3D高斯表示可以提高訓練和渲染速度,并提供對人體變形的顯式控制。此外,3D高斯方法中的forward skinning避免了神經隱式表示中使用的inverse skinning中存在的對應模糊性。

通常,基于3D高斯的方法首先使用SMPL模板初始化高斯,然后使用線性混合蒙皮(LBS)將表示變形到觀測空間中。然后通過多視圖(圖8a)或單目視頻(圖8b)渲染和監督高斯。此外,一些方法專門用于重建人頭頭像(圖8c),而一些方法則專注于可推廣的管道,而不是每個主題的優化。

Multi-view Video Synthesis

Moreau提出了一種HuGS,用可動畫化的人體從多視圖視頻中渲染照片逼真的人體化身,該人體用一組3D高斯表示人體。HuGS中的3D高斯在原始設置的基礎上添加了一個蒙皮權重向量,該向量調節每個身體關節對高斯運動方式的影響,以及一個對非剛性運動進行編碼的潛在代碼。HuGS應用LBS來變形由SMPL模型初始化的規范基元,并且僅學習蒙皮權重。由于LBS僅對身體關節的剛性變形進行編碼,因此HuGS隨后引入了局部非剛性細化階段,以對服裝的非剛性變形進行建模,同時考慮身體姿勢編碼和環境遮擋。盡管在新的姿態合成上取得了有競爭力的性能,但HuGS獨立地優化和變形每個高斯,忽略了局部鄰域中高斯之間的內在關系。

Monocular Video Synthesis

同時,Kocabas設計了一個變形模型,僅從單眼視頻中用3D高斯表示可動畫化的人類和靜態場景。在實踐中,人體和場景被解開,并從SMPL身體模型中分別構建運動點云的結構。人類高斯通過其在規范空間中的中心位置、一個特征三平面和三個MLP進行參數化,這些MLP預測高斯的特性,并在類似于Moreau的管道中進行進一步優化。

Human Head Animation

GaussianAvatars專注于通過將3D Gaussians裝配到參數化可變形人臉模型來重建頭部化身。特別是,3D高斯在FLAME網格的每個三角形的中心進行初始化,其參數由三角形屬性定義。此外,為了在不破壞三角形和splats之間的連接的情況下適應該方法的自適應密度控制操作,設計了一種綁定繼承策略,以使用其父三角形的索引對高斯進行額外的參數化,從而使新的高斯點保持在FLAME網格上。然而,這種方法缺乏對FLAME未建模的區域(如頭發和其他配件)的控制。

Generalizable Methods

與大多數依賴于每個受試者優化的方法相反,Zheng提出了一種可推廣的3D-GS,在沒有任何微調或優化的情況下實時合成看不見的人類表演者的新穎視圖。所提出的GPS Gaussian直接從具有不同性質的海量3D人體掃描數據中以前饋的方式回歸高斯參數,以學習豐富的人體先驗,從而實現即時的人體外觀渲染。此外,GPS Gaussion采用高效的2D CNN對源視圖圖像進行編碼,并預測2D高斯參數圖。具體地,經由深度估計模塊學習的深度圖和RGB圖像分別用作3D位置圖和顏色圖,以形成高斯表示,同時以逐像素的方式預測3D高斯的其他參數。稍后,將這些參數貼圖取消投影到3D空間,并聚合以進行新穎的視圖渲染。

挑戰:i)在由SMPL模型和LBS初始化的3D高斯人體中,服裝變形沒有得到很好的學習。ii)在大多數方法中,環境照明沒有參數化,這使得重新照明化身是不可行的。iii)盡管在從單目視頻重建人類化身方面已經取得了很大進展,但恢復精細細節仍然是一個棘手的問題,因為從稀疏視圖僅提供有限的信息。iv)目前,大多數方法中的3D高斯都是獨立優化和變形的,忽略了局部區域高斯之間的內在結構和連通關系。

機會:i)對于人類頭部建模,利用3DMM控制運動的方法也無法表達微妙的面部表情。探索一種更有效的方法來單獨控制非剛性變形是未來工作的重點。ii)如何從學習的3D高斯中提取網格仍然是未來有待研究的工作。iii)基于3DMM的方法和基于SMPL的方法的重建性能都受到模型參數初始化的約束。固定參數的不準確可能會嚴重影響模型與監督的一致性,從而導致紋理模糊。注意到3DMM和SMPL未能對人體的松散結構進行建模。在這方面,在優化過程中增強模板模型的表達能力是未來工作的一個有希望的突破。

討論和未來工作

3D高斯Splatting在計算機圖形學和計算機視覺領域顯示出巨大的潛力。然而,由于與3D高斯splatting相關的復雜結構和不同任務,各種挑戰仍然存在。本節旨在應對這些挑戰,并提出未來研究的潛在途徑。

處理3D-GS中的浮動元素。3D高斯splatting中的一個顯著問題是渲染空間中浮動元素的普遍性,主要來源于圖像背景。已經建議使用不透明度閾值來減少這些浮動的發生,從而增強通過PSNR和SSIM度量測量的圖像渲染質量。然而,這些浮動元素會顯著影響渲染圖像的視覺質量。一個潛在的研究領域可以集中在將這些漂浮物錨定在更靠近表面的位置的策略上,從而增強它們的位置相關性和對圖像質量的貢獻。

渲染和重建之間的權衡。如前所述,浮動元素的存在顯著影響圖像的視覺質量。但是,它們的影響超出了渲染范圍,影響了網格重建過程。SuGaR方法利用基于不透明度的方法在網格表面周圍生成3D高斯,這雖然有利于重建,但可能會影響渲染質量。這突出了需要一種細致入微的方法來平衡卓越渲染和準確重建。探索3D-GS如何增強或補充其他先進的多視圖重建技術是另一條有前景的研究途徑。

渲染真實性。當前的照明分解方法在邊界模糊的場景中顯示出有限的有效性,通常需要在優化過程中包含對象遮罩。這種限制主要源于背景對優化過程的不利影響,這是通過3D高斯散射生成的點云的獨特質量的結果。與傳統的曲面點不同,這些點云顯示類似粒子的特性,包括顏色和部分透明度,與傳統曲面點不同。考慮到這些挑戰,將多視圖立體(MVS)集成到優化過程中成為一個很有前途的方向。這種集成可以顯著提高幾何精度,為未來的研究提供了一條有希望的途徑。

實時渲染。為了便于實時渲染,Scaffold GS引入了來自稀疏體素網格的錨點,這有助于分布局部3D高斯,從而提高渲染速度。然而,該方法對統一網格大小的依賴限制了其適應性。八叉樹表示的使用是一種很有前途的替代方法,它可以靈活地將更復雜的區域劃分為更小的網格進行詳細處理。雖然這些方法顯示出在小場景中實現實時渲染的潛力,但要擴展到大環境(如城市景觀),還需要進一步的創新和額外的努力。

Few-shot的3D-GS。最近的一些few-shot研究探索了在一些few-shot設置中使用深度引導優化高斯飛濺。雖然這些方法很有希望,但也面臨著顯著的挑戰。few-shot方法的成功在很大程度上取決于單目深度估計模型的準確性。此外,它們的性能可能因不同的數據域而異,從而影響3D-GS的優化過程。此外,對將估計深度擬合到COLMAP點的依賴性引入了對COLMAP本身性能的依賴。因此,這些限制在處理COLMAP可能遇到困難的無紋理區域或復雜表面方面帶來了挑戰。對于未來的研究,使用相互依存的深度估計來研究3D場景的優化將是有益的,從而減少對COLMAP點的依賴。未來工作的另一個途徑是研究在不同數據集中正則化幾何體的方法,特別是在深度估計(如天空)面臨挑戰的領域。

物理學的融合。與材料的物理行為和視覺外觀本質上相互關聯的自然世界不同,傳統的基于物理的視覺內容生成管道是一個費力且多階段的過程。這個過程包括構建幾何體,為模擬做準備(通常使用四面體化等技術),模擬物理,并最終渲染場景。盡管該序列是有效的,但它引入了中間階段,這可能會導致模擬和最終可視化之間的差異。這種差異在NeRF范式中也很明顯,其中渲染幾何體嵌入模擬幾何體中。為了解決這個問題,建議將這兩個方面結合起來,提倡對可用于模擬和渲染目的的物質進行統一表示。此外,一個很有前途的方向是將材料自動分配給3D-GS。

精確重建。原始3D-GS無法區分鏡面反射區域和非鏡面反射區域。因此,3D-GS會在鏡面反射部分產生不合理的三維高斯。非理性三維高斯的存在會顯著影響重建過程,導致產生有缺陷的網格。此外,已經觀察到,包括鏡面反射分量也會導致產生不可靠的網格。因此,為了實現精確的重建,在精確重建網格之前,必須通過照明分解3D高斯。

真實生成。由DreamGaussianDreamer開創的3D-GS開始了其3D生成之旅。但是,生成的三維資產的幾何圖形和紋理仍需要改進。在幾何圖形方面,將更精確的SDF和UDF集成到3D-GS中,可以生成更逼真、更準確的網格。此外,可以有效地利用各種傳統的圖形技術,例如Medial Fields。關于紋理,最近提出的兩種方法,MVD和TexFusion,在紋理生成方面表現出了令人印象深刻的能力。這些進步有可能應用于3D-GS紋理網格生成。此外,Relightable3DGaussianShader和GaussianShadowr已經探索了3D-GS的著色方面。然而,在生成的網格上進行BRDF分解的問題仍然沒有答案。

使用大型基礎模型擴展3D-GS。施等最近的研究表明,將語言嵌入3D-GS可以顯著增強對3D場景的理解。隨著2023年大型基礎模型的出現,它們的非凡能力在廣泛的視覺任務中得到了展示。值得注意的是,SAM模型已成為一種強大的分割工具,并在3D-GS中成功應用。除了分割,LLM模型還有望用于語言引導的生成、操作和感知任務。這突出了這些模型在廣泛應用中的多功能性和實用性,進一步強調了它們在3D-GS中的重要性。值得注意的是,SAM模型已成為一種強大的分割工具,在3D-GS中獲得了成功的應用。除了分割,LLM模型還有望用于語言引導的生成、操作和感知任務。這突出了這些模型在廣泛應用中的多功能性和實用性,進一步強調了它們在3D-GS中的重要性。

訓練3D-GS用于其他方法。一些工作使用3D-GS作為輔助工具來提高性能。例如,NeuSG利用3D-GS來增強NeuS的重建,而SpecNerf結合了高斯方向編碼來對鏡面反射進行建模。因此,3D-GS的獨特特性可以無縫集成到現有方法中,以進一步提高其性能。可以想象,3D-GS可以與大型重建模型(LRM)相結合,或者與自動駕駛汽車領域現有的感知技術相結合,以增強其感知能力。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2023-10-16 09:51:47

模型視覺

2024-02-29 09:38:13

神經網絡模型

2021-10-09 15:36:31

技術研發三維

2024-05-16 09:24:17

3D技術

2023-12-29 09:36:51

三維模型

2024-08-21 10:04:14

2023-10-27 14:54:33

智能駕駛云計算

2024-06-19 11:30:36

2024-12-31 07:15:00

2023-12-13 10:14:00

機器視覺技術

2010-09-16 18:44:17

Coremail

2024-05-21 09:41:15

3DLLM

2024-03-11 10:08:12

駕駛模型

2023-06-02 14:10:05

三維重建

2021-12-22 10:04:11

模型人工智能3D

2021-03-16 09:53:35

人工智能機器學習技術

2024-12-12 08:28:11

2023-04-24 16:25:47

3D開發

2010-07-26 20:11:57

無線校園建設802.11nH3C
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 九九综合九九 | www.av在线 | 国产精品高潮呻吟久久 | 超碰成人在线观看 | 亚洲精品一区二区三区蜜桃久 | 青青久视频 | 日韩色图在线观看 | 欧美在线成人影院 | 可以免费看的毛片 | 性做久久久久久免费观看欧美 | 美女福利视频一区 | 亚洲黄色在线免费观看 | 国产午夜影院 | 日韩欧美在 | 国产精品一区在线观看 | 精品亚洲一区二区三区 | 国产91久久久久蜜臀青青天草二 | 狠狠干五月天 | 91极品尤物在线播放国产 | 国产夜恋视频在线观看 | 久久综合久色欧美综合狠狠 | 欧美黑人激情 | 亚洲天堂一区 | 欧美性猛交一区二区三区精品 | 成人国产精品入口免费视频 | 久久久精选 | 国产精品1区2区 | 成人免费在线 | 国产精品一区二区欧美 | 国产不卡视频在线 | 国产精品久久久久无码av | 国产成人精品一区二区 | 久久天堂网 | 综合精品在线 | 男女羞羞免费视频 | 中文字幕亚洲欧美 | 亚洲国产精品久久人人爱 | 国产视频久久久 | 亚洲一区av | 97偷拍视频| 亚洲成人av在线播放 |