成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

一張圖搞定3D視效!北大提出ViewCrafter:主打一個可控生成~

人工智能 新聞
來自北大、港中文、騰訊等機構的研究人員提出ViewCrafter,可以從根據單張或稀疏輸入圖像生成精確相機可控的新視角視頻,并支持場景級圖生3D、文生3D和稀疏視角重建等應用。

本文經自動駕駛之心公眾號授權轉載,轉載請聯系出處。

圖片

論文標題: 

ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis 

論文鏈接:

https://arxiv.org/abs/2409.02048

代碼鏈接:

https://github.com/Drexubery/ViewCrafter

項目主頁:

https://drexubery.github.io/ViewCrafter/

Huggingface Demo:

https://huggingface.co/spaces/Doubiiu/ViewCrafter

一、研究動機

盡管NeRF和3D-GS等新視角生成方法可以生成高保真度的新視角,但他們依賴于密集的多視角訓練數據,且不具備泛化能力,這限制了它們在訓練資源受限場景下的應用。在實際應用中,一個更普適的問題場景是訓練一個可范化的模型,在不需要訓練或微調的情況下從稀疏視角圖像甚至單張輸入圖像中生成新視角。解決這個問題具有相當大的挑戰性,因為它需要訓練的模型對3D物理世界有全面的理解。為了實現這個目標,我們提出ViewCrafter,一個能夠對任意輸入圖像實現相機軌跡精確可控的新視角視頻生成的視頻擴散模型,并基于ViewCrafter探索了圖像生成3D、文本生成3D和稀疏視角重建等應用。

相機軌跡可控的視頻生成,單視角輸入

相機軌跡可控的視頻生成,2視角輸入。

文生3D

單圖生3D

二、方法介紹

2.1 點云表征

DUSt3R等快速多視圖/單視圖stereo技術的發展使得從單張或稀疏圖像中快速重建點云表征成為可能。點云表征能夠提供3D場景的粗略信息,支持精確的相機位置控制以實現自由視角渲染。然而,由于點云的表示能力較弱,加之極其稀疏的輸入圖像只能提供有限的3D線索,重建出的點云存在大面積的遮擋和缺失區域,并可能面臨幾何形變和點云噪聲。這些問題限制了其在新視角合成上的應用。

圖片

圖片

點云渲染結果

2.2 視頻擴散模型

在大規模視頻數據集上訓練的視頻擴散模型能夠深入理解3D物理世界,支持從單張圖像或文本提示中生成符合物理規律和現實世界規則的視頻內容。然而,現有的視頻擴散模型缺乏顯式的場景3D信息,因此在視頻生成過程中難以實現精確的相機視角控制。

2.3 ViewCrafter:基于點云先驗的可控視角視頻生成

我們提出將視頻擴散模型的生成能力與點云表征提供的顯式3D先驗相結合,以實現相機精準可控的任意場景高保真度新視角視頻生成。

圖片

方法流程圖

如圖所示, 給定單張或稀疏視角輸入圖像,我們首先使用快速多視圖stereo方法構建其點云表征,以實現精準地移動相機進行自由視角渲染。隨后,為了解決點云渲染結果中存在的大面積缺失區域、幾何失真和點云偽影,我們訓練了一個以點云渲染結果為控制信號的視頻擴散模型作為增強渲染器,在粗糙的點云渲染結果的基礎上進一步生成具有高保真度和3D一致性的新視角。

視頻擴散模型主要由三個模塊組成。我們采用一對繼承自Stable Diffusion的VAE編碼器和解碼器對點云渲染結果進行壓縮,以降低模型開銷。此外,我們利用CLIP圖像編碼器處理參考圖像,以使得模型獲得對輸入圖像的語義關系的理解。模型的核心是一個去噪U-Net,他接受壓縮后的點云渲染結果和噪聲作為輸入,將其逐步去噪成具有高保真度的新視角。在訓練過程中,我們只訓練去噪U-Net的權重,凍結其他模塊的參數,并在RealEstate10K和DL3DV這兩個大規模多視角數據集上進行訓練。

在推理過程中,通過結合點云提供的顯式3D信息以及視頻擴散模型的強大生成能力,我們的方法能夠在視頻生成過程中實現6自由度的精準相機位姿控制,并生成高保真度、一致性強的新視角視頻。

2.4 應用:稀疏視角3D高斯重建,圖生3D和文生3D

圖片

基于ViewCrafter和我們提出的迭代式新視角生成算法,我們可以從單張圖像/稀疏視角甚至一段文字描述中進行3D高斯重建,以支持實時渲染和沉浸式3D體驗。

三、對比實驗

3.1 新視角生成

我們在Tanks-and-Temples,CO3D, RealEstate10K這三個真實世界數據集上與SOTA方法進行了定量和定性比較,實驗結果證明我們的方法在相機位姿控制的精準程度,以及生成新視角的視覺質量上都大幅超過對比方法

圖片

圖片

3.2 場景重建

我們在Tanks-and-Temples數據集上與稀疏視角重建領域的SOTA方法進行了定量和定性比較,實驗結果證明我們的方法在3D高斯重建渲染出的新視角的視覺質量上大幅超過對比方法

圖片

圖片

四、消融實驗

4.1 利用點云先驗作為視頻擴散模型控制信號的有效性

一些同期工作采用普呂克坐標作為視頻生成模型的控制信號,以實現相機可控的新視角生成。作為對比,為了驗證點云控制信號的優越性,我們訓練了一個以普呂克坐標為控制信號的新視角生成模型,并進行控制變量實驗,保證除了控制信號外其他模型結構與ViewCrafter一致。兩個模型在新視角生成任務上對比結果如下所示:

圖片

圖片

實驗結果證明,不管是在新視角生成質量還是在相機控制的精準程度上,我們使用的基于點云的控制信號都要優于基于普呂克坐標的控制信號。

4.2 模型對粗糙點云的魯棒性

如圖所示,對于作為控制信號的點云具有嚴重幾何形變的情況,我們的模型依然能夠有效地進行幾何糾錯和空洞修補。這證明了我們的方法對點云控制信號的魯棒性。

圖片

點云渲染和生成結果對比

五、未來計劃

我們驗證了ViewCrafter對于靜態場景的強大新視角生成能力。在未來的工作中,我們將探索和單目視頻深度估計方法結合,實現單目動態視頻的新視角生成和4D重建。

責任編輯:張燕妮 來源: 自動駕駛之心
相關推薦

2024-07-16 12:02:11

2024-12-31 07:15:00

2025-03-21 09:30:42

2025-01-14 09:24:46

2024-12-10 09:40:00

AI3D模型

2023-12-22 09:29:07

模型3D

2023-12-14 12:51:28

LLM3D場景

2022-08-19 14:46:16

視覺框架

2021-02-07 09:01:10

Java并發編程

2022-02-24 13:36:21

3D模型AI

2020-09-01 13:30:03

人工智能機器學習技術

2024-12-03 15:47:00

2024-07-31 15:30:05

2019-09-11 10:12:12

華為

2023-09-19 13:11:26

自動駕駛研究

2015-03-10 10:15:27

AppleWatch開發Swift

2024-09-18 13:03:52

AI視頻生成

2021-02-02 10:39:15

AI人臉識別3D人臉

2023-12-14 12:57:00

模型數據

2025-01-09 10:46:01

點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 国产乱码精品1区2区3区 | 亚洲视频免费观看 | 羞羞色视频 | 国产精品日韩欧美一区二区三区 | 日韩在线播放中文字幕 | 亚洲精品久久久久久一区二区 | 日本在线免费视频 | 日韩在线视频观看 | 亚洲成人一区 | 黄色免费av| 成人做爰9片免费看网站 | 午夜男人天堂 | 一区二区福利视频 | 国产高清精品一区二区三区 | 91美女在线观看 | 成人av播放 | 麻豆91av| 国产欧美一区二区三区在线看 | 欧美一级艳情片免费观看 | 91久久精品一区二区二区 | 成人在线免费看 | 国产成人精品一区二区三区四区 | 国产精品一区二区久久 | 在线视频一区二区三区 | 久久一区 | 成人国产精品视频 | av手机免费在线观看 | 欧美在线a | 久久99视频 | 亚洲国产成人精品女人久久久 | 久久这里只有 | 精品一区电影 | 成人一区二区三区在线观看 | 国产一区二区三区免费观看在线 | 中文成人无字幕乱码精品 | 蜜桃臀av一区二区三区 | 69性欧美高清影院 | 日韩精品一区二区三区免费视频 | 欧美日韩亚洲一区 | 一级大片 | 国产91在线播放 |