成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

視頻一鍵拆分PS層!DeepMind新模型效果碾壓同級(jí),物體、背景完美分離,還能腦補(bǔ)

人工智能 新聞
DeepMind的研究人員開(kāi)發(fā)了一種視頻分層新方法,可以無(wú)需假設(shè)背景靜止或精確的相機(jī)姿態(tài),就能將視頻分解成包含物體及其效果(如陰影和反射)的多個(gè)層,提升了視頻編輯的靈活性和效率。

視頻數(shù)據(jù)中通常會(huì)包含動(dòng)態(tài)世界中的復(fù)雜信號(hào),比如相機(jī)運(yùn)動(dòng)、關(guān)節(jié)移動(dòng)、復(fù)雜的場(chǎng)景效果以及物體之間的交互。

如果能自動(dòng)化地把視頻分解成一組語(yǔ)義上有意義的、半透明的層,分離前景對(duì)象和背景的話,類(lèi)似PS中的圖片,就可以極大提升視頻的編輯效率和直觀性。

現(xiàn)有方法在推斷對(duì)象及其效果之間復(fù)雜的時(shí)空相關(guān)性時(shí),只能處理靜態(tài)背景或帶有精確相機(jī)和深度估計(jì)數(shù)據(jù)的視頻,并且無(wú)法補(bǔ)全被遮擋區(qū)域,極大限制了可應(yīng)用范圍。

圖片

最近,Google DeepMind、馬里蘭大學(xué)帕克分校和魏茨曼科學(xué)研究所的研究人員共同提出了一個(gè)全新的分層視頻分解框架,無(wú)需假設(shè)背景是靜態(tài)的,也不需要相機(jī)姿態(tài)或深度信息,就能生成清晰、完整的圖像層,甚至還能對(duì)被遮擋動(dòng)態(tài)區(qū)域進(jìn)行補(bǔ)全。

圖片

論文鏈接:https://arxiv.org/pdf/2411.16683

項(xiàng)目地址:https://gen-omnimatte.github.io/

該框架的其核心思想是訓(xùn)練一個(gè)視頻擴(kuò)散模型,利用其強(qiáng)大生成式先驗(yàn)知識(shí)來(lái)克服之前方法的限制。

1. 模型的內(nèi)部特征可以揭示物體與視頻效果之間的聯(lián)系,類(lèi)似于把視頻擴(kuò)散模型的內(nèi)部特征應(yīng)用于分析任務(wù);

圖片

2. 模型可以直接利用先驗(yàn)補(bǔ)全層分解中的被遮擋區(qū)域,包括動(dòng)態(tài)區(qū)域,而之前方法在先驗(yàn)信息有限的情況下無(wú)法實(shí)現(xiàn)。

在實(shí)驗(yàn)階段,研究人員驗(yàn)證了,只需要一個(gè)小型、精心策劃的數(shù)據(jù)集,就能夠處理包含軟陰影、光澤反射、飛濺的水等多種元素的日常拍攝視頻,最終輸出高質(zhì)量的分解和編輯結(jié)果。

圖片

最牛「視頻分層」模型

由于真實(shí)的分層視頻數(shù)據(jù)很少,并且預(yù)訓(xùn)練模型已經(jīng)在生成任務(wù)中學(xué)習(xí)到了物體及其效果之間的關(guān)聯(lián),所以希望通過(guò)微調(diào)模型來(lái)發(fā)揮這種能力,使用小型的分層視頻數(shù)據(jù)集進(jìn)行微調(diào)。

基礎(chǔ)視頻擴(kuò)散模型

研究人員基于文本到視頻的生成器Lumiere,開(kāi)發(fā)出了一個(gè)可用于移除物體及其效果的模型Casper

基礎(chǔ)模型Lumiere先從文本提示生成一個(gè)80幀、分辨率為128×128像素的視頻,再利用空間超分辨率(SSR)模型將基礎(chǔ)模型的輸出上采樣到1024×1024像素的分辨率。

Lumiere inpainting模型對(duì)原模型進(jìn)行微調(diào),輸入條件為「遮罩的RGB視頻」和「二進(jìn)制掩碼視頻」,然后使用相同的SSR,以實(shí)現(xiàn)高分辨率質(zhì)量。

Casper基于inpainting模型進(jìn)行微調(diào),對(duì)物體及視頻效果進(jìn)行移除,保持相同的模型架構(gòu)。

使用三元掩碼進(jìn)行物體和效果移除

原始的Lumiere inpainting模型需要輸入一個(gè)二元掩碼來(lái)指示需要修復(fù)(inpaint)的區(qū)域和需要保留的區(qū)域。

Casper還引入了額外的不確定性,即所謂的「保留」區(qū)域并不完全保留,也可能為了擦除陰影而修改目標(biāo)區(qū)域。

研究人員提出了三元掩碼(Trimask)條件M,區(qū)分出需要移除的對(duì)象(M=0)、需要保留的對(duì)象(M=1)以及可能包含需要移除或保留效果的背景區(qū)域(M=0.5)。

為了獲得干凈的背景視頻,再使用一個(gè)背景三元掩碼,將所有物體都標(biāo)記為需要移除的區(qū)域,背景標(biāo)記為可能需要修改的區(qū)域。

使用SegmentAnything2獲得二進(jìn)制對(duì)象掩碼,然后將單個(gè)物體作為保留區(qū)域,其余物體標(biāo)記為移除區(qū)域。

在推理過(guò)程中,Casper的輸入包括描述目標(biāo)移除場(chǎng)景的文本提示、輸入視頻、三元掩碼和128px分辨率的噪聲視頻的拼接。

模型在沒(méi)有分類(lèi)器自由引導(dǎo)的情況下進(jìn)行256個(gè)DDPM采樣步驟進(jìn)行推理(一個(gè)80幀的視頻大約需要12分鐘),采用時(shí)間多擴(kuò)散技術(shù)來(lái)處理更長(zhǎng)的視頻。

視頻生成器中的效果關(guān)聯(lián)先驗(yàn)

為了探究Lumiere對(duì)對(duì)象效果關(guān)聯(lián)的內(nèi)在理解,研究人員分析了使用SDEdit在給定視頻去噪過(guò)程中的自注意力模式,測(cè)量了與感興趣對(duì)象相關(guān)的查詢(xún)token和鍵token之間的自注意力權(quán)重。

圖片

可以觀察到,陰影區(qū)域的查詢(xún)token對(duì)對(duì)象區(qū)域展現(xiàn)出更高的注意力值,表明預(yù)訓(xùn)練模型能夠有效關(guān)聯(lián)對(duì)象及其效果。

訓(xùn)練數(shù)據(jù)構(gòu)造

研究人員從四個(gè)類(lèi)別中構(gòu)造了一個(gè)包含真實(shí)和合成視頻示例的訓(xùn)練數(shù)據(jù)集。

圖片

Omnimatte,從現(xiàn)有方法的結(jié)果中收集了31個(gè)場(chǎng)景,形成輸入視頻、輸入三元掩碼和目標(biāo)背景視頻的訓(xùn)練元組。場(chǎng)景大多來(lái)自DAVIS數(shù)據(jù)集,以靜態(tài)背景和單個(gè)對(duì)象為特色,包含現(xiàn)實(shí)世界視頻中陰影和反射。

Tripod,通過(guò)互聯(lián)網(wǎng)補(bǔ)充了15個(gè)視頻,由固定相機(jī)拍攝,包含進(jìn)出場(chǎng)景的對(duì)象、水效果(例如,反射、飛濺、波紋)和環(huán)境背景運(yùn)動(dòng)。然后通過(guò)Ken Burns效果增強(qiáng)視頻,以模擬相機(jī)運(yùn)動(dòng)。

Kubric,包含569個(gè)合成視頻,在Blender中渲染多對(duì)象場(chǎng)景并使對(duì)象透明。此外,研究人員觀察到許多現(xiàn)實(shí)世界場(chǎng)景在一個(gè)場(chǎng)景中會(huì)展示同一類(lèi)型對(duì)象的多個(gè)實(shí)例,例如狗、行人或車(chē)輛,所以還特意生成了包含重復(fù)對(duì)象的場(chǎng)景,以訓(xùn)練模型處理多個(gè)相似對(duì)象。

對(duì)象粘貼(Object-Paste),從YouTube-VOS數(shù)據(jù)集中的真實(shí)視頻合成了1024個(gè)視頻元組,使用SegmentAnything2從隨機(jī)視頻裁剪對(duì)象,并將其粘貼到目標(biāo)視頻上。訓(xùn)練輸入和目標(biāo)分別是合成的視頻和原始視頻,可以加強(qiáng)模型的修復(fù)和背景保留能力。

訓(xùn)練數(shù)據(jù)的文本提示由BLIP-2描述,描述了對(duì)象效果移除模型應(yīng)該學(xué)會(huì)生成的目標(biāo)視頻;通過(guò)空間水平翻轉(zhuǎn)、時(shí)間翻轉(zhuǎn)和隨機(jī)裁剪到128×128像素分辨率來(lái)增強(qiáng)數(shù)據(jù)集。

實(shí)驗(yàn)結(jié)果

定性分析

在下圖「船」(boat)的例子中,現(xiàn)有的方法無(wú)法將船的尾跡從背景層中分離出來(lái),而文中提出的方法可以正確地將其放置在船的層中。

圖片

「馬」的例子中,Omnimatte3D和OmnimatteRF因?yàn)?D感知背景表示對(duì)相機(jī)姿態(tài)估計(jì)的質(zhì)量很敏感,所以背景層很模糊,無(wú)法在最后一行中恢復(fù)出被遮擋的馬。

在物體移除方面,視頻修復(fù)模型無(wú)法移除輸入掩碼外的軟陰影和反射;ObjectDrop可以移除cartoon和parkour中的陰影,但獨(dú)立處理每一幀,并且沒(méi)有全局上下文的情況下修復(fù)區(qū)域,會(huì)導(dǎo)致不一致的幻覺(jué)。

圖片

定量分析

研究人員采用OmnimatteRF評(píng)估協(xié)議來(lái)評(píng)估十個(gè)合成場(chǎng)景的背景層重建效果,包括5個(gè)電影場(chǎng)景和5個(gè)由Kubric生成的場(chǎng)景,每個(gè)場(chǎng)景都有一個(gè)對(duì)應(yīng)的真實(shí)背景,不包含前景對(duì)象和效果。

使用峰值信噪比(PSNR)和Learned Perceptual Image Patch Similarity(LPIPS)作為評(píng)估指標(biāo)。

圖片

結(jié)果顯示,Omnimatte和Layered Neural Atlas使用2D運(yùn)動(dòng)模型,因此難以處理視差;Omnimatte3D在兩個(gè)案例中未能構(gòu)建背景場(chǎng)景模型,并且在電影場(chǎng)景中的靜止前景對(duì)象處理上存在困難。

總體而言,文中的方法在兩個(gè)指標(biāo)上都取得了最佳性能。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2021-09-22 09:25:38

AI 數(shù)據(jù)人工智能

2022-12-23 15:46:14

AI開(kāi)源

2023-01-07 12:53:44

模型效果Muse

2023-04-23 15:42:18

圖像視頻

2024-04-16 07:10:46

大模型AI自動(dòng)生成視頻

2025-06-27 09:26:50

2021-12-09 15:27:46

模型人工智能深度學(xué)習(xí)

2017-06-09 11:11:55

互聯(lián)網(wǎng)

2012-11-26 17:09:42

Windows 8

2024-07-15 12:27:08

2024-04-08 13:59:03

大模型Replicate

2015-02-09 15:25:52

換膚

2024-07-26 21:08:36

2021-10-14 09:43:59

人工智能AI機(jī)器人

2024-10-15 14:00:00

AdobeAI生成

2020-03-04 09:35:55

開(kāi)源技術(shù) 軟件

2025-05-21 13:56:37

模型圖像AI

2022-08-22 15:47:48

谷歌模型

2020-02-13 11:47:05

GitHub代碼開(kāi)發(fā)者

2023-06-27 13:37:17

谷歌AI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 欧美久久久久 | 国产一级淫片a直接免费看 免费a网站 | 99久久精品视频免费 | 欧美日韩成人在线 | 欧美视频免费在线 | 天天夜天天操 | www.久久.com| 亚洲一区二区三区在线 | 日本黄色免费片 | 一区二区av在线 | 三级在线视频 | 成人深夜福利在线观看 | 欧美一区日韩一区 | 四虎永久在线精品免费一区二 | 日韩毛片播放 | 欧美日一区二区 | 夜夜草| 欧美在线观看网站 | 综合二区 | 欧美a在线 | 欧美日韩亚洲国产综合 | 日韩成人 | 国产黄色大片网站 | 成人黄色在线 | 国产亚韩 | 欧美一区二区在线 | 亚洲有码转帖 | 亚洲国产精品一区 | 伊伊综合网 | 国外成人在线视频网站 | 一级毛片观看 | 久久精品免费 | 玖玖在线免费视频 | 国产一级免费在线观看 | 亚洲精品电影网在线观看 | 亚洲精品综合 | a在线免费观看 | 国产精品视频导航 | 黄色网址免费看 | 日本三级在线 | 亚洲电影第三页 |