像Sora一樣,用物理模擬方式生成視頻
麻省理工學(xué)院、斯坦福大學(xué)、哥倫比亞大學(xué)、康奈爾大學(xué)的研究人員聯(lián)合開源了創(chuàng)新3D交互視頻模型——PhysDreamer(簡稱“PD”)。PD和OpenAI的Sora一樣,是一個可以通過物理模擬的方式來生成視頻。也就是說,PD的視頻具備很多物理世界的特征。例如,用手去觸摸一盆花后,花朵會左右搖擺直至緩慢停止。PD可以準(zhǔn)確地捕捉到物體很多微妙的動態(tài)變化和復(fù)雜的交互細(xì)節(jié),生成的視頻也就更加精準(zhǔn)、細(xì)膩。
PD案例展示
PD主要通過視頻生成模型學(xué)習(xí)到的動態(tài)先驗知識,來評估靜態(tài)3D對象的物理材質(zhì)屬性。在大量視頻訓(xùn)練數(shù)據(jù)的幫助下,可捕捉到物體外觀和動態(tài)之間的關(guān)系。
從而幫助PD推斷出驅(qū)動物體動態(tài)行為的物理材質(zhì)屬性,即使在缺乏地面真實材質(zhì)數(shù)據(jù)的情況下也沒問題,這也體現(xiàn)了PD強大的物理模擬和評估能力。
視頻生成模型是PD的核心模塊之一,通過學(xué)習(xí)大量視頻數(shù)據(jù)中的場景外觀和動力學(xué)關(guān)系,為后續(xù)的物理材質(zhì)模擬,以及交互式3D動力合成提供了重要的基礎(chǔ)知識。
視頻生成模型主要是通過深度神經(jīng)網(wǎng)絡(luò)來建模視頻幀之間的時空依賴關(guān)系,由編碼器和解碼器組成。編碼器負(fù)責(zé)將輸入視頻幀編碼為低維表示,捕捉到圖像中的關(guān)鍵特征。
解碼器則將這些低維表示解碼為逼真的視頻幀。通過訓(xùn)練過程,視頻生成模型能夠?qū)W習(xí)到輸入視頻幀與目標(biāo)視頻幀之間的映射關(guān)系,從而實現(xiàn)逐幀的視頻生成。主要流程分為以下四大塊。
外觀建模:主要用來學(xué)習(xí)物體的外觀變化模式,通過觀察大量的視頻數(shù)據(jù),使PD能夠捕捉到物體的紋理、顏色、形狀等特征,并將它們編碼為低維表示。這些編碼后的表示可以用于后續(xù)的物理材料特性估計和3D動力學(xué)合成。
動力學(xué)建模:通過觀察物體在視頻中的運動軌跡,模型能夠捕捉到物體的速度、加速度以及其他動力學(xué)特征。
先驗知識提取:通過分析編碼后的表示和解碼后的視頻幀,模型能夠提取出物體外觀和動力學(xué)之間的關(guān)系,包括外部力對物體的影響、物體的彈性等特征,為后續(xù)的物理材質(zhì)模擬提供重要基礎(chǔ)。
物體響應(yīng)預(yù)測:可根據(jù)輸入的交互刺激,預(yù)測物體的響應(yīng)。通過將交互刺激與學(xué)到的外觀和動力學(xué)模式結(jié)合起來,模型能夠生成物體在新穎交互下的運動軌跡和形變情況。
使得PD生成的視頻能夠根據(jù)用戶的輸入,預(yù)測出靜態(tài)3D物體在特定交互刺激下的逼真動態(tài)響應(yīng)。
在現(xiàn)實世界中,物體的物理行為由其材質(zhì)屬性決定,例如,剛度、彈性和質(zhì)量等。而在虛擬環(huán)境中模擬這些屬性時,會使用“楊氏模量”來進(jìn)行評估和調(diào)整,例如,一個高楊氏模量意味著材料更堅硬,低則是更軟。
PD為了復(fù)現(xiàn)現(xiàn)實世界中的物理知識,使用了材質(zhì)場表示來實現(xiàn)對3D對象物理屬性的逼真模擬。材質(zhì)場是一個連續(xù)的函數(shù),為3D場景中的每個點分配了一個“楊氏模量”物理屬性值。
物理材質(zhì)場是通過隱式神經(jīng)場來表示,這是一種可微分的模型,可以優(yōu)化以匹配參考視頻中的動態(tài)。這種表示方法不僅能夠精確地捕捉物體的物理屬性,還能夠與物理模擬過程無縫集成。
例如,當(dāng)用戶在虛擬環(huán)境中擠壓一朵虛擬花朵時,花朵的變形和回彈方式會非常接近真實世界的表現(xiàn)。
尤其是在緩慢運動表征方面,PD模型比DreamGaussian4D、PhysGaussian、Real Capture模型表現(xiàn)更好。
本文轉(zhuǎn)自 AIGC開放社區(qū) ,作者:AIGC開放社區(qū)
