成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!

發布于 2025-3-12 10:35
瀏覽
0收藏

論文鏈接:https://arxiv.org/pdf/2503.03751
git鏈接:https://research.nvidia.com/labs/toronto-ai/GEN3C/

亮點直擊

  • 提出了GEN3C,一種具有精確相機控制的世界一致性視頻生成模型。
  • 通過對輸入圖像或先前生成的視頻幀的深度估計進行反投影,構建了一個以點云表示的3D緩存。借助用戶提供的相機軌跡,渲染3D緩存,并將渲染出的視頻用作視頻模型的條件輸入。
  • 對模型在不同輸入條件下的視頻生成任務進行了廣泛評估,從單一圖像到稀疏和密集的多視圖輸入。該模型很好地泛化到動態場景,展示了精確控制視點、生成3D一致的高保真視頻以及填補3D緩存中被遮擋或缺失區域的能力。
  • 探索了顯式3D緩存所支持的應用,如對象移除和場景編輯,證明本方法是將視頻生成模型應用于生產和仿真環境的一個臺階。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

總結速覽

解決的問題

傳統的視頻生成模型在生成逼真視頻時往往忽略3D信息,導致出現不一致現象,如物體突然出現或消失。此外,相機控制不夠精確,因為相機參數只是作為輸入,網絡需要推斷視頻如何依賴于相機姿態。

提出的方案

GEN3C通過3D緩存進行引導,利用從種子圖像或先前生成幀的深度估計獲得的點云。在生成下一幀時,GEN3C基于3D緩存的2D渲染和用戶提供的新相機軌跡進行條件生成。這樣,模型不必記住之前生成的內容或從相機姿態推斷圖像結構。

應用的技術

  • 通過反投影輸入圖像或先前生成的視頻幀的深度估計,構建點云表示的3D緩存。
  • 利用用戶提供的相機軌跡渲染3D緩存,將其作為視頻模型的條件輸入。
  • 視頻模型經過微調,以將不完美的渲染視頻轉換為高質量視頻,糾正偽影并填補缺失信息。
  • 在多視圖輸入情況下,為每個視圖維護獨立的3D緩存,并使用視頻模型處理視圖之間的錯位和聚合。

達到的效果

  • 實現了更精確的相機控制和時間上的一致性。
  • 在稀疏視圖的新視角合成中取得了最先進的成果,尤其是在具有挑戰性的環境中,如駕駛場景和單目動態視頻。
  • 展示了在動態場景中精確控制視點、生成3D一致高保真視頻的能力,并能填補3D緩存中的遮擋或缺失區域。
  • 支持顯式3D緩存的應用,如對象移除和場景編輯,驗證了其在生產和仿真環境中的應用潛力。

方法:基于3D信息的視頻生成

核心思路是利用3D指導信息來進行視頻生成,從而實現精確的相機控制并提高視頻幀間的一致性。為此,首先從輸入圖像或預生成的視頻幀構建一個3D緩存。然后,利用用戶提供的相機姿態將3D緩存渲染到相機平面上。盡管這些渲染并不完美,但為視頻生成模型提供了關于需要生成的視覺內容的強條件。本文的視頻生成模型會相應地進行微調,以生成與期望相機姿態精確對齊的3D一致性視頻。下圖3提供了方法的概覽。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

構建時空3D緩存

選擇一個適用于不同應用且能推廣到不同場景的合適3D緩存是我們設計中的主要考慮因素。最近,深度估計在各種領域(如室內、室外或自動駕駛場景)取得了顯著進展。因此,選擇從RGB圖像的深度估計中反投影的彩色點云作為我們3D緩存的基本元素。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

渲染3D緩存

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

融合和注入3D緩存

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

討論。 上述策略是一種通用機制,用于聚合來自多個視圖的信息并將其注入到視頻擴散模型中。我們將其與表現出不同特性的替代方案進行比較,如下圖4所示。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

在同時進行的研究工作中提出的顯式融合方法 [30, 70],直接在3D空間中融合點云。雖然這種方法簡單,但它嚴重依賴于深度對齊,當多個視點之間存在不一致時會引入偽影。此外,將視圖相關的光照信息注入這樣的融合緩存中也并非易事。基于這些原因,我們更傾向于讓模型自行處理視圖信息的聚合。


另一種方法,稱之為“concat”,是將渲染緩存的所有隱空間變量在通道維度上進行連接。盡管這種方法在經驗上效果良好,但它需要通過一個常數限制模型所能支持的視點數量,并對視點施加順序限制。相反,我們更喜歡一種置換不變的融合操作,從而形成本文的基于池化的策略。


另一個關鍵設計選擇是將 mask 信息納入模型。最初嘗試將 mask 通道與隱空間變量連接。然而,連接操作引入了額外的模型參數,這些參數現在需要進行訓練,因此在 mask 通道未在任何大規模訓練數據中表示時可能無法很好地泛化。相反,通過元素級乘法直接將 mask 值應用于隱空間變量,從而保持模型架構不變。

模型訓練

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

模型推理

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

自回歸推理和3D緩存更新. 許多應用需要生成長視頻,但視頻越長,現有模型就越容易出現不一致。為了生成長而一致的視頻,我們提出逐步更新本文的3D緩存。我們首先將長視頻分成長度為L的重疊片段,兩個連續片段之間有一幀重疊。然后,自回歸地渲染3D緩存并生成每個片段的幀。為了使預測在時間上保持一致,使用先前生成的片段更新3D緩存:對于每個生成的片段中的幀,使用深度估計器估計其像素級深度。由于幀的相機姿態是已知的(用戶提供),可以通過最小化重投影誤差將深度估計與現有的3D緩存對齊。

實驗和應用

在本節中,介紹訓練GEN3C的實驗設置,并通過幾個下游任務展示其多功能性,包括單圖像到視頻生成、雙視圖新視角合成(NVS)、用于駕駛模擬的新視角合成和單目動態新視角合成,并提供了消融研究。

訓練細節

訓練GEN3C的一個關鍵挑戰是缺乏多視圖、動態、真實世界的視頻數據,這些數據提供了新相機軌跡的3D緩存和真實視頻的配對。我們利用靜態的真實世界視頻幫助模型推理空間一致性,并使用合成的多視圖動態視頻幫助實現時間一致性。


數據集。 我們選擇了三個真實世界視頻數據集:RE10K、DL3DV、Waymo開放數據集(WOD),以及一個合成數據集Kubric4D 。RE10K包含74,766個視頻片段,捕捉了室內和室外的真實房地產場景。使用DROID-SLAM估計相機參數,并使用DAV2預測每幀深度。深度預測與DROID-SLAM的場景比例對齊。DL3DV包含10,000個真實世界場景的視頻。我們按照與RE10K相同的協議對這些片段進行標注。WOD是一個包含1000個場景的真實世界駕駛數據集,每個場景有200幀。使用DAV2預測深度,并將其與LiDAR點云的比例剛性對齊。對于Kubric4D,使用GCD生成的3000個包含多物體動態的場景。該數據集以點云序列的格式存在,我們為期望的相機軌跡渲染RGB-D視頻。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

單視圖到視頻生成

GEN3C 可以輕松應用于從單個圖像生成視頻/場景。首先預測給定圖像的深度,然后創建3D緩存,并將其渲染為2D視頻,輸入到訓練好的視頻擴散模型中,以生成精確遵循給定相機軌跡的視頻。


評估和基準。 將 GEN3C 與四個基準進行比較,包括 GenWarp、MotionCtrl、CameraCtrl和 NVS-Solver 。為了與 GenWarp和 NVS-Solver進行公平比較,使用相同的深度估計器獲取像素級深度,并通過全局平移和縮放使用場景比例進行剛性對齊。


CameraCtrl是最相關的工作,通過使用相同的數據集、訓練協議和視頻擴散模型來重現它,并用相機軌跡的 Plücker 嵌入替換我們3D緩存中的渲染視頻。在兩個數據集上評估所有方法:RE10K,用于域內測試;Tanks and Temples (T-&-T),用于域外測試以評估泛化能力。為了確保全面評估,為 RE10K 和 T-&-T 各采樣100個測試序列。遵循之前的工作 [8, 42, 70],報告像素對齊指標,即 PSNR 和 SSIM,以及感知指標,即 LPIPS。進一步報告 TSED 分數 以評估預測的3D一致性。


結果。 定量結果見下表1。本文的方法在域外和域內測試中均優于所有基準,展示了從單個圖像生成逼真視頻的強大能力。值得注意的是,基于 Plücker 嵌入的方法,例如 CameraCtrl,在泛化到域外數據時表現不佳,因為這些數據具有不同的場景布局和相機軌跡。由于本文的3D緩存中對3D內容的顯式建模,本文的模型僅遭受了小幅度的性能下降。在下圖5中提供了與兩個最強基準的定性比較。本文的方法的預測精確地遵循了真實的相機軌跡,并捕捉到了細粒度的細節,例如椅子腿或字母單詞。特別是,CameraCtrl [16] 無法精確跟隨相機運動,因為僅從 Plücker 嵌入推理場景布局是困難的。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

雙視角新視圖合成

進一步將 GEN3C 應用于一個具有挑戰性的稀疏視角新視圖合成設置中,其中僅提供兩個視角,并從這兩個視角生成新視圖。與前文類似,我們首先為每個視角預測深度,創建 3D 緩存,并使用相機軌跡將其渲染成兩個視頻,這些視頻被輸入并由 GEN3C 融合以生成輸出視頻。請注意,在推理過程中,本文的模型不僅限于兩個視角,可以應用于任意數量的視角。我們在補充材料中提供了定性結果。


評估和基準。 將本文的方法與兩個稀疏視圖重建的代表性工作進行比較:PixelSplat和 MVSplat。在此任務中,評估模型的插值和外推能力。具體來說,隨機從視頻中選擇兩個輸入幀。對于插值,我們選擇輸入幀之間的目標視圖;對于外推,選擇超出兩個輸入幀范圍的目標視圖。從 RE10K和 T-&-T中各抽取 40 個測試序列,并報告 PSNR、SSIM 和 LPIPS。


結果。 在下表 2 中提供了定量結果,并在下圖 6 中展示了定性結果。本文的方法優于所有基準,尤其是在從提供的兩個視圖進行外推時,即使兩個視圖之間的重疊很小,也能生成逼真的新視圖,這得益于預訓練視頻生成模型的強大先驗。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

駕駛模擬中的新視圖合成

沿著與捕獲視頻不同的新軌跡模擬真實世界的駕駛場景是訓練自動駕駛車輛的基石。GEN3C 可以應用于此任務。


評估和基準。 將 GEN3C 與兩個代表性的場景重建方法進行比較:Nerfacto和 3DGS。為了公平比較,從驗證集中篩選出 18 個靜態場景。為了進行評估,我們通過從前置攝像機的原始軌跡水平偏移并改變偏移量來創建新軌跡。由于沒有新軌跡的真實數據,報告 FID作為評估指標。


結果。 如下表 3 所示,本文的方法在駕駛場景中獲得了顯著更好的 FID 分數。這是因為重建方法難以從駕駛場景中稀疏觀察到的視圖中恢復場景結構。因此,當渲染攝像機偏離原始軌跡時,渲染質量顯著下降,如下圖 7 所示。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

3D 編輯。 本文的顯式 3D 緩存天然適合 3D 編輯。如下圖 8 所示,我們可以移除 3D 汽車,修改汽車的軌跡,并使用 GEN3C 生成合理的駕駛場景重新模擬視頻。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

單目動態新視圖合成

在給定動態場景的單目視頻的情況下,GEN3C 能夠沿著新的相機軌跡“重新渲染”該視頻。

評估和基準。 在 GCD發布的 Kubric 數據集的 20 個保留測試場景上進行評估,并與 GCD 進行比較。使用在 Kubric 數據集上訓練的公開發布的檢查點。由于 GCD 僅在 256x384 分辨率下訓練,我們將其預測結果上采樣到與我們方法相同的分辨率以進行公平比較。


結果。 在下表 4 中提供了定量結果,補充材料中提供了定性結果。本文的方法在保持輸入視頻中的物體細節和動態方面表現出色,并且能夠通過 3D 緩存精確地與用戶指定的新相機運動對齊。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

領域外結果。 進一步在由 Sora和 MovieGen生成的動態視頻上對 GEN3C 進行了定性評估,并在下圖 9 中提供了結果。GEN3C 生成了保留 3D 內容并與新相機運動對齊的逼真視頻。完整結果請參見補充視頻。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

消融研究

從兩個方面對本文的方法進行了消融研究:首先是不同的點云融合策略,其次是對深度估計噪聲的魯棒性。實驗設置遵循前文中的描述。


不同的融合策略。 選擇兩個輸入視圖并預測這兩個視圖之間的插值。本文的融合策略與從兩個視圖顯式融合點云的方法進行比較,這類似于并行研究 ReconX和 ViewCrafter中提出的方法。下圖 10 中提供了定性示例,并在下表 6 中進行了定量比較。即使深度估計未對齊且光照不同,本文的方法也能在兩個不相連的視圖之間平滑過渡,而顯式點云融合在未對齊區域會出現嚴重的偽影。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

擴展至高級視頻擴散模型

進一步將 Stable Video Diffusion 模型替換為更先進的視頻擴散模型 Cosmos,該模型在視頻生成中表現出色。我們遵循與之前相同的微調協議。具體而言,我們選擇 Cosmos1.0 Diffusion7B Video2World1 作為基礎模型,并將噪聲隱空間變量與由 Cosmos 分詞器編碼的渲染幀的嵌入進行拼接。該模型在 RE10K和 DL3DV數據集上進行了 10,000 步的微調,批大小為 64。


在下圖 11 中提供了定性比較,并在本文的網站上展示了更多結果。極端新視圖合成的結果如下圖 12 所示。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

當利用更強大的視頻擴散模型時,GEN3C 能夠在極端相機視角變化的情況下生成質量更高的視頻。這突出了我們方法的一個關鍵優勢:能夠利用不斷發展的預訓練視頻模型,以最少的數據需求實現廣泛的泛化能力。

CVPR 2025 | 英偉達重塑自動駕駛場景生成!3D點云賦能電影級特效:GEN3C效果炸裂??!-AI.x社區

結論

GEN3C,這是一種具有精確相機控制的連續視頻生成模型。通過從種子圖像或先前生成的視頻構建 3D 緩存來實現這一目標。然后,根據用戶提供的相機軌跡將緩存渲染成 2D 視頻,以強烈地條件化本文的視頻生成,從而實現比以往方法更精確的相機控制。本文的結果在稀疏視角的新視圖合成方面也達到了SOTA水平,即使在駕駛場景和單目動態新視圖合成等具有挑戰性的環境中也是如此。


限制。 生成具有動態內容的視頻時,GEN3C 依賴于預生成的視頻來提供對象的運動。生成這樣的視頻本身就是一個挑戰。一個有前景的擴展是將文本條件化納入視頻生成模型的訓練中,以提示運動。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/GuW_9X88JImEjyweoedX1Q??


收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 亚洲人成在线播放 | 色播视频在线观看 | 欧美在线观看一区 | 国产精品1区2区3区 男女啪啪高潮无遮挡免费动态 | 天天操夜夜看 | 国产精品欧美一区二区三区不卡 | 超碰成人免费 | 日韩国产欧美在线观看 | 国产精品久久毛片av大全日韩 | 国产成人精品a视频一区www | 一区二区三区不卡视频 | 国产免费自拍 | 亚洲第一色站 | 欧美一区二区在线免费观看 | 亚洲视频中文字幕 | 中文字幕一页二页 | 精品国产精品三级精品av网址 | 亚洲一区二区三区四区五区中文 | 激情在线视频网站 | 91在线看片 | 黄视频网站免费观看 | 五月婷婷亚洲 | 欧美在线一二三 | 欧美成人精品一区二区男人看 | 精品欧美一区二区在线观看 | 久久这里只有 | 亚洲精品二三区 | 免费网站国产 | 亚洲在线高清 | 国产黄色大片在线免费观看 | 欧美男人天堂 | 在线色 | 色婷婷综合久久久中文字幕 | 在线观看av不卡 | 欧美日韩国产免费 | 久久99精品久久久久婷婷 | 亚洲精品一区二区网址 | 毛片视频免费观看 | 成人亚洲 | 亚洲精品久久区二区三区蜜桃臀 | 最新中文字幕一区 |