成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

Anything in Any Scene:逼真物體插入(助力各類駕駛數(shù)據(jù)合成)

人工智能 智能汽車
本文引入了一種新穎且可擴(kuò)展的 Anything in Any Scene 視頻仿真框架,能夠?qū)⑷魏挝矬w集成到任何動態(tài)場景視頻中。

原標(biāo)題:Anything in Any Scene: Photorealistic Video Object Insertion

論文鏈接:https://arxiv.org/pdf/2401.17509.pdf

代碼鏈接:https://github.com/AnythingInAnyScene/anything_in_anyscene

作者單位:小鵬汽車

圖片

論文思路

逼真的(realistic)視頻仿真(video simulation)在從虛擬現(xiàn)實到電影制作等各種應(yīng)用領(lǐng)域都顯示出巨大的潛力。尤其是在現(xiàn)實世界中捕捉視頻不切實際或成本高昂的情況下。視頻仿真中的現(xiàn)有方法通常無法準(zhǔn)確地建模光照環(huán)境、表示物體幾何形狀或?qū)崿F(xiàn)高水平的照片級真實感。本文提出了 Anything in Any Scene ,這是一種新穎且通用的真實視頻仿真框架,可以將任何物體無縫插入到現(xiàn)有的動態(tài)視頻中,并強(qiáng)調(diào)物理真實感。本文提出的總體框架包含三個關(guān)鍵過程:1)將真實的物體集成到給定的場景視頻中,并放置適當(dāng)?shù)奈恢靡源_保幾何真實感(geometric realism);2)估計天空和環(huán)境光照分布并模擬真實陰影,增強(qiáng)光照真實感(light realism);3)采用風(fēng)格遷移網(wǎng)絡(luò)來細(xì)化最終的視頻輸出,以最大限度地提高照片真實感(photorealism)。本文通過實驗證明 Anything in Any Scene 框架可以生成具有出色的幾何真實感、光照真實感和照片真實感的仿真視頻。通過顯著緩解與視頻數(shù)據(jù)生成相關(guān)的挑戰(zhàn),本文的框架為獲取高質(zhì)量視頻提供了高效且經(jīng)濟(jì)高效的解決方案。此外,其應(yīng)用遠(yuǎn)遠(yuǎn)超出了視頻數(shù)據(jù)增強(qiáng)的范圍,在虛擬現(xiàn)實、視頻編輯和各種其他以視頻為中心的應(yīng)用中顯示出廣闊的潛力。

主要貢獻(xiàn)

本文引入了一種新穎且可擴(kuò)展的 Anything in Any Scene 視頻仿真框架,能夠?qū)⑷魏挝矬w集成到任何動態(tài)場景視頻中。

本文的框架獨(dú)特地專注于在視頻仿真中保留幾何真實感、光照真實感和照片真實感,確保高質(zhì)量和真實的輸出。

本文進(jìn)行了廣泛的驗證,證明該框架有能力制作逼真的視頻仿真,極大地擴(kuò)展了該領(lǐng)域的應(yīng)用范圍和潛力。

論文設(shè)計

圖像和視頻仿真在從虛擬現(xiàn)實到電影制作的各種應(yīng)用中都取得了成功。通過逼真的圖像和視頻仿真生成多樣化和高質(zhì)量的視覺內(nèi)容的能力具有推動這些領(lǐng)域發(fā)展的潛力,能夠引入新的可能性和應(yīng)用。盡管在現(xiàn)實世界中捕獲的圖像和視頻的真實性非常寶貴,但它們經(jīng)常受到長尾分布的限制。這導(dǎo)致常見場景的代表性過高,而罕見但關(guān)鍵的情況的代表性不足,從而提出了稱為 out-of-distribution problem 的挑戰(zhàn)。通過視頻采集和編輯來解決這些限制的傳統(tǒng)方法被證明是不切實際的或成本過高,因為難以涵蓋所有可能的情況。視頻仿真的重要性,特別是通過將現(xiàn)有視頻與新插入的物體相集成,對于克服這些挑戰(zhàn)變得至關(guān)重要。通過生成大規(guī)模、多樣化和逼真的視覺內(nèi)容,視頻仿真有助于增強(qiáng)虛擬現(xiàn)實、視頻編輯和視頻數(shù)據(jù)增強(qiáng)方面的應(yīng)用。

然而,考慮物理真實性生成逼真的仿真視頻仍然是一個具有挑戰(zhàn)性的開放問題?,F(xiàn)有方法通常因?qū)W⒂谔囟ㄔO(shè)置而表現(xiàn)出局限性,特別是室內(nèi)環(huán)境[9,26,45,46,57]。這些方法可能無法充分解決室外場景的復(fù)雜性,包括不同的光照條件和快速移動的物體。依賴 3D 模型配準(zhǔn)的方法僅限于集成有限類別的物體 [12,32,40,42]。許多方法忽略了一些重要因素,例如光照環(huán)境建模、正確的物體放置和實現(xiàn)真實感 [12, 36]。失敗的案例如圖 1 所示。因此,這些限制極大地限制了它們在需要高度可擴(kuò)展、幾何一致和真實場景視頻仿真的領(lǐng)域(例如自動駕駛和機(jī)器人)中的應(yīng)用。

本文提出了一個用于解決這些挑戰(zhàn)的逼真視頻物體插入的綜合框架 Anything in Any Scene。該框架設(shè)計具有通用性,適用于室內(nèi)和室外場景,保證幾何真實感、光照真實感和照片真實感等方面的物理準(zhǔn)確性。本文的目標(biāo)是創(chuàng)建視頻仿真,不僅有利于機(jī)器學(xué)習(xí)中的視覺數(shù)據(jù)增強(qiáng),而且適用于各種視頻應(yīng)用,例如虛擬現(xiàn)實和視頻編輯。

本文的 Anything in Any Scene 框架的概述如圖 2 所示。本文在第 3 節(jié)中詳細(xì)介紹了本文新穎且可擴(kuò)展的流程,用于構(gòu)建場景視頻和物體網(wǎng)格(object mesh)的多樣化資產(chǎn)庫。本文介紹了一種視覺數(shù)據(jù)查詢引擎,旨在利用描述性關(guān)鍵詞從視覺查詢中高效檢索相關(guān)視頻片段。接下來,本文提出兩種生成 3D meshes 的方法,利用現(xiàn)有 3D 資產(chǎn)以及多視圖圖像重建。這允許不受限制地插入任何所需的物體,即使它非常不規(guī)則或語義較弱。在第 4 節(jié)中,本文詳細(xì)介紹了將物體集成到動態(tài)場景視頻中的方法,重點是保持物理真實感。本文設(shè)計了第 4.1 節(jié)中描述的物體放置和穩(wěn)定方法,確保插入的物體穩(wěn)定地錨定(anchored)在連續(xù)的視頻幀上。為了解決創(chuàng)建逼真的光照和陰影效果的挑戰(zhàn),本文估計天空和環(huán)境光照并在渲染過程中生成逼真的陰影,如第 4.2 節(jié)所述。生成的仿真視頻幀不可避免地包含與現(xiàn)實世界捕獲的視頻不同的不現(xiàn)實的偽影,例如噪聲水平、色彩保真度和清晰度方面的成像質(zhì)量差異。本文在 4.3 節(jié)中采用風(fēng)格遷移網(wǎng)絡(luò)來增強(qiáng)照片真實感。

從本文提出的框架生成的仿真視頻達(dá)到了高度的光照真實感、幾何真實感和照片真實感,在質(zhì)量和數(shù)量上都優(yōu)于其他視頻,如第 5.3 節(jié)所示。本文在5.4節(jié)中進(jìn)一步展示了本文的仿真視頻在訓(xùn)練感知算法中的應(yīng)用,以驗證其實用價值。Anything in Any Scene 框架能夠創(chuàng)建大規(guī)模、低成本的視頻數(shù)據(jù)集,用于具有時間效率和逼真視覺質(zhì)量的數(shù)據(jù)增強(qiáng),從而減輕視頻數(shù)據(jù)生成的負(fù)擔(dān),并有可能改善長尾分布和分布外的挑戰(zhàn)。憑借其通用的框架設(shè)計,Anything in Any Scene 框架可以輕松整合改進(jìn)的模型和新模塊,例如改進(jìn)的 3D mesh 重建方法,進(jìn)一步增強(qiáng)視頻仿真性能。

圖片圖 1. 光照環(huán)境估計錯誤、物體擺放位置錯誤和紋理風(fēng)格不真實的仿真視頻幀示例,這些問題使得圖像缺乏物理真實感。圖片圖 2. 用于逼真視頻物體插入的 Anything in Any Scene 框架概述圖片圖 3. 用于放置物體的駕駛場景視頻示例。每幅圖像中的紅點是物體插入的位置。

實驗結(jié)果

圖 4. 原始天空圖像、重建的 HDR 圖像及其相關(guān)的太陽光照分布圖的示例

圖 5. 原始和重建的 HDR 的環(huán)境全景圖像示例

圖 6. 為插入的物體生成陰影的示例

圖 7. 使用不同風(fēng)格遷移網(wǎng)絡(luò)對 PandaSet 數(shù)據(jù)集的仿真視頻幀進(jìn)行定性比較。

圖 8. PandaSet 數(shù)據(jù)集的仿真視頻幀在各種渲染條件下的定性比較。

總結(jié):

本文提出了一個創(chuàng)新且可擴(kuò)展的框架,”Anything in Any Scene",專為逼真的視頻仿真而設(shè)計。本文提出的框架將各種物體無縫集成到不同的動態(tài)視頻中,確保保留幾何真實感、光照真實感和照片真實感。通過廣泛的演示,本文展示了其在緩解視頻數(shù)據(jù)收集和生成相關(guān)挑戰(zhàn)方面的功效,提供了適用于各種場景的經(jīng)濟(jì)高效且省時的解決方案。本文的框架的應(yīng)用在下游感知任務(wù)中顯示出顯著的改進(jìn),特別是在解決目標(biāo)檢測中的長尾分布問題方面。本文框架的靈活性允許直接集成每個模塊的改進(jìn)模型,本文的框架為逼真視頻仿真領(lǐng)域的未來探索和創(chuàng)新奠定了堅實的基礎(chǔ)。

引用:

Bai C, Shao Z, Zhang G, et al. Anything in Any Scene: Photorealistic Video Object Insertion[J]. arXiv preprint arXiv:2401.17509, 2024.

責(zé)任編輯:張燕妮 來源: 自動駕駛之心
相關(guān)推薦

2023-12-26 09:29:12

自動駕駛數(shù)據(jù)

2023-12-28 09:35:59

2024-01-10 09:25:21

自動駕駛視圖

2023-10-09 09:35:34

自動駕駛模型

2015-06-11 13:05:05

戴爾Any Cloud云轉(zhuǎn)型

2015-03-10 09:50:30

戴爾云計算DELL

2024-12-27 10:00:00

數(shù)據(jù)自動駕駛

2023-10-11 10:22:55

數(shù)據(jù)集計算機(jī)

2025-04-07 03:00:00

自動駕駛

2023-11-10 09:31:29

自動駕駛訓(xùn)練

2024-04-19 12:28:47

自動駕駛場景

2021-09-23 11:46:27

框架AI開發(fā)

2021-11-05 16:34:58

區(qū)塊鏈資格證技術(shù)

2023-12-09 14:29:32

AI算法

2025-04-15 09:08:51

系統(tǒng)數(shù)據(jù)模型

2024-06-24 05:00:00

YOLO模型人工智能

2024-12-18 09:34:13

2017-05-23 09:10:48

人臉修復(fù)鑒別器圖像
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 在线一级片 | 久久精品国产99国产精品 | 一级做a毛片 | 一级毛片视频在线观看 | 日韩欧美二区 | 国产精品日日夜夜 | 国产精品久久久久一区二区三区 | 久久国产精品一区二区 | 福利视频网 | 午夜视频在线播放 | 五月综合激情在线 | av免费网站在线观看 | 欧美性生活一区二区三区 | 精品久久久久一区二区国产 | 日本高清精品 | 黄色大片网站 | 日韩av三区 | 久久综合久色欧美综合狠狠 | 日韩a视频| 午夜寂寞影院列表 | 激情国产 | 国产精品视频一二三区 | 狠狠色狠狠色综合系列 | 天天夜碰日日摸日日澡 | 午夜av成人 | 亚洲天堂一区 | 国产麻豆乱码精品一区二区三区 | 久久人人网 | 久久久妇女国产精品影视 | 成人黄色网址大全 | 国产精品污www一区二区三区 | 免费在线观看一级毛片 | 91热在线 | 一本一道久久a久久精品蜜桃 | 男女性毛片 | 色性av| 欧美性jizz18性欧美 | 日本成人在线播放 | 看a网站 | 国产精品日韩欧美一区二区三区 | 中文字幕亚洲无线 |