成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一文詳解3D內容生成算法(樸素/2D先驗/混合型) 精華

發布于 2024-9-19 12:38
瀏覽
0收藏

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

文章鏈接:https://arxiv.org/pdf/2402.01166

近年來,人工智能生成內容(AIGC)方面取得了顯著進展,涉及多種輸入形式,如文本、圖像、視頻、音頻和3D內容。其中,3D內容是最接近真實世界3D環境的視覺形式,并蘊含著巨大的知識量。3D內容生成展示了學術和實踐價值,同時也面臨著巨大的技術挑戰。本文旨在總結3D內容生成領域的發展,提出了一個新的分類法,將現有方法分為三類:3D樸素生成方法、基于2D先驗的3D生成方法和混合3D生成方法。這項調查涵蓋了大約60篇涉及主要技術領域的論文。此外討論了當前3D內容生成技術的局限性,并指出了未來工作的開放挑戰和有前景的方向。


一個超棒的3D內容生成資源地址:

??https://github.com/hitcslj/Awesome-AIGC-3D??

介紹

生成模型在自然語言處理(NLP)和圖像生成領域取得了巨大的成功。最近的發展,如ChatGPT和Midjourney,已經徹底改變了許多學術和工業領域。例如,AI寫作和設計助手顯著縮短了論文寫作和圖像設計的時間。在3D領域,隨著3D數據量的增加以及其他領域生成技術的成功,3D生成技術也取得了重大進步。


由于其廣泛的應用,3D內容生成的研究越來越受到關注。典型的應用包括:

  • 「游戲和娛樂設計」比如角色和物品,需要多視角概念設計、3D模型創建和3D模型優化。這個過程勞動密集且耗時。3D內容生成技術將大大減少時間和人力成本。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

  • 「建筑領域」通過3D內容生成方法,設計師可以快速生成3D概念模型并與客戶進行溝通。這將縮小設計師和客戶之間的gap,并改變建筑設計領域。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

  • 「工業設計」當前的工業設計需要生成3D零部件模型,然后將它們組裝成一個完整的模型。這個過程耗時且可能造成大量的材料浪費。3D內容生成技術將虛擬生成所有的3D模型并將它們組裝成一個完整的模型。如果模型不滿意,設計師可以快速修訂設計而不會產生太大的成本。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

過去幾年見證了3D樸素生成方法的許多進展。這些方法的主要思想是首先使用3D數據集訓練網絡,然后以前饋方式生成3D資源。這一系列方法的一個局限性是需要大量的3D數據集,而3D數據的數量很少。


由于圖像文本對的數量遠遠大于3D對應物,最近出現了一種新的研究方向,即基于大規模配對圖像文本數據集訓練的2D擴散模型構建3D模型。一個代表性方法是DreamFusion,它通過使用分數蒸餾采樣(SDS)損失來優化NeRF。


最近還出現了混合3D生成方法,將3D樸素和基于2D先驗的生成方法的優勢結合起來。典型的例子是one2345++,它通過使用基于2D先驗的多視角圖像輸入來訓練3D擴散模型生成3D模型。最近兩年見證了3D生成技術的顯著發展,特別是文本到3D和圖像到3D任務。這些進展為3D內容生成提供了許多潛在的解決方案,如3D樸素生成、基于2D先驗的3D生成和混合3D生成。


根據最新了解,與本文的調查相關的只有兩篇綜述文章。[Shi等,2022]幾乎只涵蓋了形狀生成和單視圖重建的早期技術。[Li等,2023a]只包括了部分基于2D先驗的3D生成方法,并沒有涵蓋最近的大部分3D樸素和混合生成方法。


然而,這個領域經歷了快速的發展,包括3D樸素、基于2D先驗的和混合生成方法。因此,迫切需要一份綜合性的調查來整合這些新進展,并幫助從業者更好地探索不斷擴展的研究前沿。


本文貢獻總結如下:

  1. 提出了一個新的分類法,系統地對3D內容生成領域最新的進展進行分類。
  2. 提供了一份涵蓋60篇論文的全面回顧,涵蓋了3D生成的主要技術。
  3. 討論了幾個有前景的未來方向和開放性挑戰。

初步

3D表示

有效地表示3D幾何數據對于生成3D內容至關重要。介紹3D表示對于理解生成3D內容至關重要。當前的3D表示通常分為兩類,即顯式表示和隱式表示。

顯式表示

顯式表示通常指的是直接和明確地表示3D對象的幾何形狀或結構。它涉及明確定義對象的表面或體積表示,例如通過使用點云、體素或網格。顯式表示的優勢在于它能夠實現更精確的幾何控制和多尺度編輯。

「點云」

點云是3D數據的基本表示,涉及從3D對象或環境中采樣表面點。點云通常直接從深度傳感器中獲取,因此在各種3D場景理解問題中得到廣泛應用。深度圖和法線圖可以視為點云范式的特定實例。鑒于獲取點云數據的便利性,在AIGC-3D領域,這種表示方法被廣泛使用。

「體素」

體素是另一種常見的3D表示,涉及在基于規則的柵格結構上分配值。這使得一個體素可以編碼一個3D形狀或場景。由于體素的規則性質,它們與卷積神經網絡的集成良好,并在深度幾何學習任務中得到廣泛應用。由于與CNN的兼容性,體素也是利用深度神經模型的生成3D內容技術的常見選擇。

「網格」

網格表示使用一組頂點、邊和面來建模3D形狀和場景。這使得網格可以編碼表面的3D位置信息和拓撲結構。與體素相比,網格專門關注建模表面幾何,提供了更緊湊的存儲格式。與點云相比,網格提供了表面元素之間的顯式連接,從而使點之間的空間關系建模成為可能。由于這些優勢,網格長期以來在經典計算機圖形學領域(如幾何處理、動畫和渲染)中被廣泛使用,其中準確性、互操作性和效率是優先考慮的因素。在這些維度上取得平衡,網格已經成為3D內容創建中主要的表示方法。

隱式表示

隱式表示將3D對象或形狀隱含地定義出來。通常采用代表對象表面的水平集或函數。它提供了一種緊湊而靈活的3D形狀表示,允許對對象、場景和具有復雜幾何和紋理的人物進行建模。隱式表示的優勢在于其與微分渲染管線的靈活嵌入。

「NeRF」

神經輻射場(NeRF)是一種新興的神經渲染方法,已經在復雜場景的新視圖合成方面取得了令人印象深刻的結果。NeRF包括兩個主要組件,包括體積光線跟蹤器和多層感知器(MLP)。盡管NeRF在渲染輸出方面可能會較慢,但它通常被用作AIGC-3D應用中的全局表示。

「3D Gaussian Splatting」

3D Gaussian Splatting(3D GS)引入了一種有效的方法,用一組位于3D空間中的加權高斯分布隱式地表示3D場景,從而實現了新視圖合成。通過將表面元素或點建模為高斯blobs,這種方法能夠使用少量分布來捕捉復雜的場景結構。通過基于分布的范式隱式地編碼豐富的場景信息,3D Gaussian Splatting在新視圖合成中脫穎而出,成為一種創新的技術。盡管3D Gaussian Splatting能夠快速生成結果,但結果不穩定,在AIGC-3D中最近也有了應用。

「有符號距離函數」

有符號距離函數(SDF)將3D表面定義為距離場的零水平集,其中空間中的每個點被賦予一個值,該值對應于其到表面的有符號最短距離。SDF通過利用距離值而無需顯式網格表示來實現高效的操作,例如構造實體幾何。它們通過水平集方法實現了平滑的表面重建,并支持高級模擬。DMTet采用了一種混合表示方法,結合了有符號距離函數(SDF)和網格,通常用于優化生成的3D幾何體。

2D擴散模型

擴散模型指的是一類基于去噪擴散概率模型(DDPM)框架的生成技術。DDPM訓練模型執行逆擴散過程——從一個噪聲信號開始,并應用迭代去噪步驟來恢復原始數據分布。從數學上講,這個過程可以表示為,其中是原始信號經過t個擴散步驟后的帶噪聲版本,加入了高斯噪聲? ~ N (0, σ

3D樸素生成方法

3D樸素生成方法直接在3D數據的監督下生成3D表示,其中表示和監督是生成質量的兩個關鍵組成部分。現有的3D樸素生成方法可以分為三類:物體、場景和人物。下圖1中展示了幾個重要的里程碑方法。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

物體

通過適當的條件輸入,3D樸素生成器可以被訓練用于物體級別的生成。早期的嘗試,例如Text2Shape在語言和3D物理屬性之間建立了多對多的關系,實現了對顏色和形狀的生成控制。


然而,Text2Shape只收集了15K個椅子和桌子的75K個語言描述。ShapeCraft逐漸演變出更多短語,構建了一個包含369K個形狀-文本對的數據集,命名為Text2Shape++。為了支持遞歸生成,ShapeCraft 使用了矢量量化的深度隱式函數來捕獲局部細節。最近,SDFusion提出了將條件特征嵌入到擴散訓練的去噪層中,允許多模態輸入條件。


受到可用3D數據和相應字幕的限制,先前的3D樸素生成模型只能處理有限的類別。為了支持大詞匯量的3D生成,先驅性工作Point-E和Shap-E收集了數百萬個3D資源和相應的文本字幕。Point-E 訓練了一個圖像到點擴散模型,其中將CLIP視覺潛在code輸入到Transformer中。Shap-E 進一步引入了潛在投影,以實現SDF表示的重建。然而,提出的數據集并未向公眾發布。作為替代,最近的工作必須基于一個相對較小的數據集Objaverse進行實驗。


LRM提出了學習一個圖像到三面隱空間,然后重新塑造潛在特征以重建基于三面的隱式表示。DMV3D將LRM視為一個去噪層,進一步提出了一個T步驟擴散模型,以基于LRM生成高質量的結果。TextField3D 提出了用于開放詞匯生成的方法,其中文本潛在空間注入了動態噪聲以擴展潛在特征的表達范圍。

場景

早期方法利用生成對抗網絡(GAN),明確地融合了一個參數化函數,稱為輻射場。該函數以3D坐標和相機姿態作為輸入,并為3D空間中的每個點生成相應的密度標量和RGB值。然而,GAN存在訓練病態問題,包括模式崩潰,并且很難在不存在規范坐標系的數據上進行訓練,這就是3D場景的情況。


為了克服這些問題,GAUDI學習了一個適合于使用自動解碼器學習的一組場景潛在變量的去噪擴散模型。然而,這些模型都具有一個固有的缺點,即試圖將整個場景捕捉到一個條件神經輻射場中的單個向量中。這限制了擬合復雜場景分布的能力。


NeuralField-LDM首先將圖像和姿態對表示為潛在code ,并學習分層擴散模型來完成場景生成。然而,當前的方法耗時且分辨率相對較低。最近的采用了分層體素潛在擴散,以粗到精的方式生成更高分辨率的3D表示。

虛擬人

早期的3D虛擬人生成方法依賴于參數化模型,這些模型使用一組預定義的參數來創建具有表現力的人臉或人體的3D網格。3D可變形模型(3DMM)是一種統計模型,將虛擬人面部的內在屬性分解為身份、表情和反射。這些屬性被編碼為低維向量,可以用于從2D圖像或視頻素材生成逼真的3D人臉。


對于人體,最廣泛使用的參數化模型之一是皮膚多人線性(SMPL)模型,它使用線性和非線性變換的組合來創建逼真的人體3D網格。SMPL基于從大量身體掃描數據集中學習的統計身體形狀和姿勢模型。盡管參數化模型取得了成功,但它們具有一些限制,特別是在建模復雜幾何形狀,如頭發和寬松服裝方面。


近年來,人們越來越多地采用基于學習的方法來建模3D虛擬人。這些方法使用深度學習算法從3D掃描或多視角圖像數據集中學習逼真而詳細的虛擬人。PIFu引入了像素對齊的隱式函數,可以從單個圖像生成具有復雜形狀的高度詳細的著裝虛擬人3D模型。


HeadNeRF提出了基于NeRF的參數化頭部模型,可以生成具有高保真度的頭部圖像,并具有操縱渲染姿勢和各種語義屬性的能力。SMPLicit和gDNA使用來自已注冊的3D掃描數據的隱式函數訓練著裝虛擬人的3D生成模型。最近,Rodin基于三面表示提出了一種滾動擴散網絡,可以從大規模的合成多視角數據集中學習詳細的3D虛擬頭部。

基于2D先驗的3D生成方法

先前,大多數3D樸素生成方法局限于像ShapeNet這樣的受限數據集,其中僅包含固定的物體類別。文本到圖像擴散模型的最新進展開辟了新的可能性。DreamFusion利用分數蒸餾抽樣技術,將強大的2D擴散模型的知識轉化為優化3D表示,如NeRF,從而顯著提高了文本到3D合成質量。這一范式將基于擴散的方法的范圍迅速擴展到了從物體到場景和虛擬人等其他領域。下圖2中展示了幾個重要的方法。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

物體

DreamFusion開創了根據每個文本輸入或每個圖像優化唯一的3D表示的范式,受強大的預訓練2D擴散模型的指導。這種方法確立了一個新的基礎,但也揭示了前進的關鍵挑戰 - 即在分辨率、幾何細節和紋理保真度方面實現高保真度質量;確保在多種視角下生成一致,即“多面Janus問題”;以及為交互應用程序優化合成速度。


為了實現高保真度質量,Magic3D引入了一個兩階段的粗到精的優化策略。這種方法提高了速度和質量。Fantasia3D對幾何和外觀建模進行了解耦,推進了文本到3D的質量。對于幾何部分,它依賴于混合場景表示,并將提取的表面法線編碼到圖像擴散模型的輸入中。


在外觀方面,Fantasia3D引入了空間變化的雙向反射分布函數,用于學習生成幾何的表面材料,以實現照片般逼真的渲染。盡管早期方法存在過飽和和低多樣性的問題,但ProlificDreamer引入了變分分數蒸餾來解決這些挑戰。


然而,由于穩定擴散對2D前視圖的偏好,其3D輸出往往傾向于重復不同角度的前視圖,而不是生成連貫的3D對象。與在多視角3D數據上微調以緩解多面揚尼斯問題相反,一些工作探索了替代方法。


例如,DreamControl利用自適應視角采樣和邊界完整性度量。雖然基于NeRF的以前的每個樣本優化方法在3D生成任務中速度較慢,但3DGS的快速發展實現了突破。

DreamGaussian將3DGS整合到生成式3D內容創建中,與基于NeRF的方法相比,實現了約10倍的加速。與NeRF中使用的占用剪枝相比,3D高斯的漸進密集化對于這些3D生成問題收斂速度顯著更快。DreamGaussian引入了一種高效的算法,將生成的高斯函數轉換為帶紋理的網格。這項開創性的工作展示了3DGS如何實現AIGC-3D的更快訓練。


除了聯合幾何和紋理生成之外,另一種范式涉及給定預定義幾何的紋理映射,稱為“紋理繪制” - 也是一種內容創建形式。這一領域的代表工作包括TEXTure和TexFusion,它們利用預訓練的深度到圖像擴散模型,并應用迭代方案將紋理繪制到從多個視角觀察的3D模型上。通過將紋理生成與幾何建模的分離挑戰分開,這些方法提供了一個值得探索的替代研究方向。

場景

基于2D先驗的場景生成的主要思想是利用2D預訓練大模型生成部分場景。然后,應用修補策略來生成大規模場景。Text2room是使用2D預訓練模型生成2D圖像深度的典型例子。然后,對圖像進行了更深的修補。這些深度被合并以生成大規模場景。


LucidDreamer首先利用修補策略從輸入中生成多視角一致的圖像。然后,將修補后的圖像提升到3D空間并估計深度圖,將新的深度圖合并到3D場景中。SceneTex使用深度到圖像擴散先驗為室內場景生成場景紋理。該方法的核心在于提出了一個隱式編碼網格外觀的多分辨率紋理場。然后,在相應的RGB渲染中使用VSD損失對目標紋理進行優化。


此外,SceneDreamer引入了鳥瞰視角(BEV)場景表示和神經體積渲染器。該框架從2D圖像集合中學習一個無條件的生成模型。借助這個模型,可以從噪聲中生成無界的3D場景,而不需要任何特定的條件。

虛擬人

在文本引導的3D人物生成領域,參數模型被廣泛用作基本的3D先驗,因為它們可以提供準確的幾何初始化并顯著降低優化難度。AvatarCLIP 是第一個將視覺語言模型與來自參數模型的隱式3D表示相結合,實現了全身虛擬人的零樣本文本驅動生成。在使用預訓練的2D潛在擴散模型提供動力的SDS生成3D對象取得成功后,最近的工作也將這些方法擴展到了人物生成。


HeadSculpt通過將預訓練的擴散模型與從3D參數化頭部模型獲得的多視圖地標圖進行條件化,生成一致的3D頭像。遵循這一方案,DreamWaltz提出了考慮遮擋的SDS和骨架條件化,以保持3D一致性并在優化過程中減少偽影。通過在imGHUM的語義簽名距離空間中優化NeRF并使用多個細粒度損失,DreamHuman生成具有特定實例表面變形的可動態變化的3D人物。HumanGaussian將SDS與SoTA 3DGS表示相結合,實現了更高效的文本驅動3D虛擬人生成。

混合型3D生成方法

早期的3D樸素生成方法受限于稀缺的3D數據集,而2D先驗方法只能提煉有限的3D幾何知識,研究人員探索了將3D信息注入預訓練的2D模型中。新興方法包括在多視角對象圖像上微調穩定擴散以生成一致的視角,以及從多個視圖進行3D重建和生成。


這種范式轉變解決了上述的缺點,通過利用豐富的2D視覺資源和有針對性的3D監督來克服每種方法單獨的限制。下圖3中介紹了幾個具有里程碑意義的方法。

一文詳解3D內容生成算法(樸素/2D先驗/混合型)-AI.x社區

物體

第一次嘗試是Zero123,它應用3D數據來微調預訓練的2D擴散模型,實現了基于單個輸入視角的新視角生成。這項具有洞察力的工作表明,穩定擴散本質上包含了廣泛的3D知識,可以通過多視角微調來解鎖。


在此基礎上,One-2-3-45利用Zero123生成多個視角。然后,它連接了一個重建模型,在短短45秒內從單個圖像生成3D網格,并取得了令人滿意的結果。這種方法超越了先前依賴于2D先驗的優化,顯著提高了3D生成的速度。


雖然Zero123中新生成的視角與給定的視角一致,但在生成的新視角之間卻沒有保持一致性。作為回應,一些工作旨在同時產生具有面試一致性的多個視角。


SyncDreamer,MVDream都能夠同時生成多個視角,視角之間進行信息交換以確保一致性。Wonder3D引入了一個法向模型,并通過對多視角穩定擴散模型進行微調,同時跨視角輸出RGB和法線圖。One-2-3-45++通過增強的Zero123模塊推進了多視角3D生成,實現了同時的跨視角注意力,以及一個多視角條件化的3D擴散模塊,隨著時間的推移進行了粗到細的紋理網格預測。


隨后的幾項工作引入了3D先驗初始化以提高3D生成內容的質量。Dreamcraft3d使用視角相關的擴散模型對DMTet表示進行初始化。Gsgen利用Point-E初始化3D高斯位置以進行生成。通過提前合并不同形式的3D結構信息,這些論文與缺乏初始化技術的先前方法相比,產生了更一致的3D輸出。


在像LRM這樣的大規模重建模型取得成功之后,Instant3d也采用了一個兩階段的方法。在第一階段,它進行了多視圖生成。然后,第二階段通過基于Transformer的新型稀疏視圖重建器直接對生成的圖像回歸NeRF。結合多視角穩定擴散和大規模重建模型可以有效解決多面和生成速度的問題。

場景

最近提出了幾種關于3D場景生成的方法。MVDiffusion同時生成所有圖像并具有全局意識,有效解決了誤差積累的常見問題。MVDiffusion的主要特點是其能夠使用預訓練的文本到圖像擴散模型并行處理透視圖像,同時結合新穎的對應感知注意力層來增強跨視圖的交互作用。


ControlRoom3D是一種僅通過用戶提供的房間風格文字描述和用戶定義的房間布局來生成高質量3D房間網格的方法。簡單的基于布局的3D房間生成方法不能產生合理的網格。為了解決幾何問題并確保一致的風格,ControlRoom3D利用了引導全景圖生成和幾何對齊模塊。


SceneWiz3D引入了一種從文本合成高保真度3D場景的方法。給定一段文字,首先生成布局。然后,應用粒子群優化技術根據布局自動放置3D對象并隱式優化3D場景。

SceneWiz3D還利用RGBD全景擴散模型進一步改善了場景幾何。

虛擬人

關于3D人物生成的幾項研究已經利用了2D和3D數據/先驗,以實現更真實和普遍的3D人物合成,其中3D數據提供準確的幾何信息,而2D數據提供多樣化的外觀。


SofGAN提出了一個可控的人臉生成器,其幾何和紋理的解耦潛空間是從未配對的2D圖像和3D面部掃描數據集中學習的。3D幾何信息被編碼到語義占用場中,以促進一致的自由視角圖像生成。


類似地,SCULPT也提出了一種未配對的學習過程,有效地從中等規模的3D掃描數據集和大規模的2D圖像數據集中學習全身穿著人類的幾何和紋理的分離分布。


Get3DHuman通過結合兩個預訓練網絡,即StyleGAN-Human圖像生成器和3D重建器,避免了對3D訓練數據的需求。


受近期文本到圖像合成模型的重大進展的推動,研究人員已經開始利用3D人物數據來增強強大的2D擴散模型,以合成具有高頻細節的逼真3D虛擬人。


DreamFace通過將視覺語言模型與可動和基于物理的面部資源相結合,生成逼真的可動3D頭像頭像。通過一個新穎的紋理擴散模型和預先訓練的擴散先驗相結合,實現了逼真的渲染質量。


HumanNorm提出了一個用于3D人物生成的兩階段擴散pipeline,首先通過一個適應法線的擴散模型生成詳細的幾何信息,然后使用一個與生成的幾何信息相對齊的擴散模型合成逼真的紋理。這兩個擴散模型都在一個包含2.9K個3D人物模型的數據集上進行了微調。

動態3D

動態3D生成近來引起了廣泛關注,通過同時優化2D、3D和視頻先驗。開創性工作MAV3D提出了生成靜態3D資源,然后通過文本到視頻擴散來為其添加動畫,其中,引入了一種名為六面體平面的4D表示,以擴展具有時間維度的3D空間。在MAV3D之后,一系列工作基于靜態到動態的pipeline創建了動態3D內容,同時提出了不同的4D表示和監督方法以提高生成質量。


Animate124引入了一個圖像到4D的框架,其中六面體平面被4D網格編碼替代。除了靜態和動態階段外,進一步提出了一個細化階段,用ControlNet引導圖像輸入和4D創建的語義對齊。


4D-fy提出了一種多分辨率哈希編碼,將3D和時間空間分開表示。它強調了3D生成質量的重要性,并利用3D先驗來指導靜態階段的優化。


最近的研究嘗試基于生成的視頻重建3D場景,引入了一種新的4Dpipeline,生成視頻然后補充其3D表示。


4DGen通過多視角擴散先驗生成偽多視角視頻,并基于多分辨率六面體平面優化高斯分布的重建。


DreamGaussian4d利用3D感知擴散先驗監督給定視頻的多視角重建,并使用視頻擴散先驗對相應的場景進行細化。

未來方向

盡管近年來在3D內容生成方面取得了一些進展,但仍然存在許多未解決的問題,這些問題將極大地影響3D內容生成方法的質量、效率和可控性。在本節中,我們總結了這些挑戰,并提出了幾個未來的方向。

挑戰

就質量而言,當前的AIGC-3D方法存在一些局限性。在幾何方面,它們無法生成緊湊的網格,并且無法模擬合理的連線。在紋理方面,它們缺乏生成豐富細節貼圖的能力,并且很難消除光照和陰影的影響。材質屬性也得不到很好的支持。


就可控性而言,現有的文本/圖像/素描到3D方法無法精確輸出符合條件要求的3D資源。編輯能力也不足。在速度方面,基于GS的前饋和SDS方法速度更快,但質量比基于NeRF的優化方法較低。總的來說,以生產級質量、規模和精度生成3D內容仍然沒有得到解決。

數據

關于數據,一個挑戰在于收集包含數十億個3D對象、場景和人物的數據集。通過一個開放世界的3D游戲平臺可能可以實現這一目標,用戶可以自由創建和上傳自己定制的3D模型。此外,從多視角圖像和視頻中提取豐富的隱式3D知識將是有價值的。具有這種多樣、無標簽的大規模3D數據集具有推進無監督和自監督學習方法在生成式3D內容創建方面的巨大潛力。

模型

有必要探索更有效的3D表示和模型架構,能夠隨著數據集的增長展現出規模化的性能。這提供了一個有前景的研究方向。在未來幾年,我們可能會看到專門用于3D內容生成的基礎模型的出現。此外,未來的大型語言模型可能會實現高水平的多模態智能,例如GPT-5/6,可以理論上理解圖像、文本,甚至以專家級水平運行3D建模軟件。然而,確保這種強大系統的有益發展將需要進行大量研究。

基準測試

目前,對3D內容質量的評估主要依賴于人工評分。引入了一種用于文本到3D生成的自動化人工評估器。然而,全面評估3D輸出是具有挑戰性的,因為它需要理解物理3D屬性和預期設計。3D生成的基準測試在2D圖像生成基準測試方面進展緩慢。基于逼真標準開發能全面衡量幾何和紋理保真度的穩健指標,可以推動該領域的發展。

結論

在本調研中,對3D生成內容技術進行了全面的分析,包括3D本地生成、基于2D先驗的3D生成和混合3D生成。介紹了一種新穎的分類方法,簡潔地總結了近期用于生成3D內容的方法的進展。此外,還總結了該領域尚未解決的挑戰,并提出了幾個有前景的研究方向。堅信這項研究將成為一項寶貴的資源,引導著該領域的進一步發展,研究人員將從本研究中汲取靈感,解決這個領域中引人注目的未解問題。


本文轉自  AI生成未來 ,作者:Jian Liu等


原文鏈接:??https://mp.weixin.qq.com/s/bnlLiV7MX346k3Bi7ObSOg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色综合色综合网色综合 | 亚洲一卡二卡 | 91精品国产乱码久久久久久 | 国产一区二区在线免费观看 | 欧美在线a| 国产精品91视频 | 欧美精选一区二区 | 台湾佬成人网 | 午夜视频在线免费观看 | 亚洲精品成人在线 | 欧美精品在线一区二区三区 | 成人av播放 | 精品一区在线免费观看 | www.久久.com| 羞羞的视频网站 | 天天操夜夜操 | 成人欧美一区二区三区色青冈 | 国产成人免费视频 | 精品产国自在拍 | 91国产精品在线 | 亚洲国产高清在线观看 | 亚洲国产精品视频一区 | 91精品久久久久久久 | 欧美一区二区在线看 | 欧美一区二区三区视频在线 | 久草免费福利 | 中文字幕1区2区 | 久久久www | 91麻豆精品国产91久久久久久久久 | 少妇一级淫片免费放播放 | 日韩精品一区二区三区视频播放 | 古典武侠第一页久久777 | 欧日韩在线观看 | 国产精品久久久久久久久久免费看 | 久久久久久久久久久久久九 | 一区二区三区影院 | 国产一区二区免费 | 国产欧美一区二区三区国产幕精品 | 免费亚洲视频 | www.99久久.com| 亚洲久久久 |