AI鏡頭控制黑科技喜提多項SOTA!浙大&上交等發(fā)布統(tǒng)一多模態(tài)視頻生成框架OmniCam
文章地址:https://arxiv.org/pdf/2504.02312
圖 1 :OmniCam概述。鑒于內容參考和軌跡引導的不同形式,OmniCam通過相機運動控制生成高質量的視頻序列。具體而言,OmniCam集成了內容(如圖像或視頻)和軌跡(如文本指令或視頻中的相機運動)參考的各種組合。這種方法使OmniCam能夠準確合成與用戶指定輸入一致的視頻
亮點直擊
- 提出了OmniCam模型,該模型支持復雜靈活的控制,允許幀級控制,通過多模態(tài)實現(xiàn)軌跡控制,并能處理多模態(tài)數(shù)據(jù)。
- 引入了OmniTr數(shù)據(jù)集,該數(shù)據(jù)集收集了大量高質量長序列軌跡、視頻及描述,使其成為目前規(guī)模最大、模態(tài)最豐富的數(shù)據(jù)集。
- 提出了相機運動領域的新基準,首次解決了空間長序列軌跡規(guī)劃、視頻引導軌跡生成等問題。
- 實驗表明,OmniCam在定量指標和定性效果上均達到了最先進的性能。
總結速覽
解決的問題
- 單圖像輸入無法實現(xiàn)相機控制:
- 基于視頻生成的方法難以區(qū)分相機角度變化與主體運動。
- 基于重建的方法通常需要多視角信息。
- 現(xiàn)有方法在連續(xù)復雜操作中難以保持空間結構,導致失真。
- 缺乏通用數(shù)據(jù)集:現(xiàn)有數(shù)據(jù)集(如RealEstate)缺乏多模態(tài)支持與多樣化軌跡控制。
- 交互成本高且模態(tài)受限:現(xiàn)有方法僅支持有限輸入模態(tài)(如單一文本或視頻),且控制能力不足(如長序列、復合運動)。
提出的方案
- 多模態(tài)輸入支持:
- 內容輸入:圖像或視頻(作為內容參考)。
- 軌跡輸入:文本描述、視頻軌跡提取或直接參數(shù)化輸入(6DoF位姿序列)。
- 三階段生成流程:
- 單目重建初始化:根據(jù)目標軌跡生成初始視頻。
- 視頻擴散模型修復:利用先驗知識修復時空一致性。
- 強化學習微調:優(yōu)化生成效果。
- 靈活控制能力:
- 支持幀級控制、復合運動(任意方向推拉/旋轉)、速度調節(jié)、長序列多指令銜接、特效(如旋轉)。
應用的技術
- 大語言模型(LLM):解析文本描述的相機運動指令。
- 視頻擴散模型:生成時空一致的視頻,修復單目重建的缺陷。
- 強化學習(RL):微調模型以提升控制精度。
- 多模態(tài)數(shù)據(jù)集構建:OmniTr數(shù)據(jù)集包含長序列軌跡、視頻及多模態(tài)描述(時間、速度、方向等)。
達到的效果
- 高質量生成:在多種指標上達到SOTA,支持復雜軌跡控制(如6DoF連續(xù)視角)。
- 多模態(tài)兼容性:支持文本、視頻、圖像等多種輸入組合。
- 靈活交互:
- 通過文本描述實現(xiàn)自然語言控制。
- 通過參考視頻提取軌跡遷移控制。
- 支持自定義參數(shù)化軌跡輸入。
- 長序列支持:可無縫銜接多段操作,生成長時間穩(wěn)定視頻。
創(chuàng)新點總結
- 首個多模態(tài)相機控制框架:統(tǒng)一文本、視頻、圖像輸入,解決模態(tài)割裂問題。
- OmniTr數(shù)據(jù)集:填補多模態(tài)長序列軌跡數(shù)據(jù)的空白。
- 6DoF長序列控制:突破現(xiàn)有方法在復雜運動與時空一致性上的限制。
OmniTr 數(shù)據(jù)集
現(xiàn)有數(shù)據(jù)集缺乏長序列相機控制能力,無法支持復雜靈活的多模態(tài)相機運動輸入。為此,我們推出首個面向全方位相機控制的大規(guī)模資源庫——OmniTr數(shù)據(jù)集。
如下圖2所示,OmniTr以軌跡組為基本單元,每組包含四個組件:軌跡描述文本、離散運動表示、極坐標軌跡和高清視頻。本文精心構建了1000組獨特軌跡組,形成包含1000條軌跡、10,000條描述文本、30,000段視頻及其對應離散運動表示的綜合數(shù)據(jù)集。其中每條軌跡對應10種文本描述和30段常見類別視頻。
數(shù)據(jù)集視頻內容基于CO3D數(shù)據(jù)集構建,并采用大語言模型生成多樣化文本描述。該數(shù)據(jù)集提供幀級精度的控制信息,其離散運動表示可直接轉換為完整的六自由度(6DoF)序列,實現(xiàn)精準相機軌跡控制。
如下表1對比所示,OmniTr不僅規(guī)模龐大,還全面覆蓋所有相機控制方式:每條文本描述包含1-5個相機操作指令,每個操作對應特定離散運動表示。文本精確表述操作的時間范圍、速度、方向與角度,離散運動表示則包含關鍵字段——
- ?
?starttime?
??/??endtime?
?:操作時間區(qū)間 - ?
?speed?
?:運動速度(low表慢速,high表快速) - ?
?direction?
?:運動方向(含基礎方向與任意角度組合方向) - ?
?rotate?
?:旋轉方式(順時針/逆時針/靜止)
上圖2餅狀圖展示了數(shù)據(jù)集對各種操作方法的全面覆蓋。
本文通過多維度優(yōu)化提升數(shù)據(jù)集實用性:
- 時間魯棒性處理:顯式時間范圍(如"0-1秒")與隱式默認值(移動默認1秒,旋轉默認0.5秒)相結合,支持非連續(xù)操作(如首次操作在0-1秒,第二次跳至3-4秒)
- 角度靈活性處理:文本輸入允許組合方向出現(xiàn)任意角度
- 語言風格多樣化:包含正式陳述、簡潔表達、夸張描述等形式,確保語義豐富性及多場景適配能力
方法
軌跡生成
本文的相機軌跡生成系統(tǒng)旨在根據(jù)輸入描述生成合適的軌跡。先前的工作通常局限于單維度的相機運動或僅限于關鍵幀的簡單相機操作,同時在精確控制和長距離軌跡規(guī)劃方面存在困難。本文的方法通過細粒度控制實現(xiàn)幀級精度,支持任意方向的復合運動和相機變焦操作。本文的方法能夠無縫集成多個操作,從而生成更自然流暢的相機軌跡。該系統(tǒng)支持多模態(tài)輸入,可接受文本和視頻序列作為軌跡參考。
描述到離散運動表示
?本文利用離散運動表示作為生成連續(xù)軌跡的中間表示,以促進長距離細粒度控制。對于文本輸入,我們使用大語言模型將描述轉換為離散運動表示,其由一系列 ??<starttime, endtime, speed, direction, rotate>?
? 組成。?
離散運動表示預測的損失函數(shù)定義為
同樣地,視頻引導的相機控制也使用離散運動表示作為橋梁。雖然視頻軌跡提取在相機姿態(tài)估計研究中已有探索,但傳統(tǒng)相機姿態(tài)估計方法主要關注重建輔助而非優(yōu)化連續(xù)相機軌跡預測,導致處理視頻時(尤其在低幀率場景下)結果突兀且不一致。為解決這個問題,我們在特征提取器后加入了平滑模塊,該模塊在將軌跡映射到下游坐標系的同時確保連續(xù)性和平滑性。與傳統(tǒng)相機姿態(tài)估計方法相比,本文的方法即使在低幀率條件下也表現(xiàn)出魯棒性能。
離散運動表示到軌跡
對于平移操作,每幀的位姿通過在前一幀位姿上增加增量來計算,從而形成對應操作的完整位姿序列。旋轉操作的實現(xiàn)細節(jié)見補充材料。
軌跡引導的視頻合成
從軌跡生成視頻存在多種方法。傳統(tǒng)方法通常使用空間變換塊捕獲內容信息,時序變換塊處理時間依賴性,并將軌跡信息作為條件注入模型。然而此類架構的性能有限。
?
本文的方法選擇利用3D重建獲取基礎內容信息和時間依賴性。現(xiàn)有重建方法多依賴3D高斯?jié)姙R,但該技術流程復雜:需要從點云定位高斯橢球中心,計算協(xié)方差矩陣構建橢球,添加不透明度信息,最后根據(jù)目標軌跡渲染視頻。鑒于該過程的復雜性,我們選擇直接使用點云進行單目重建,并引入擴散模型來解決渲染中的未知區(qū)域問題。
重建與渲染
對于視頻內容參考,逐幀執(zhí)行相同處理流程。例如推理輸入視頻第i幀時,從推斷視頻中選擇第i幀,以此類推逐幀組裝結果。為提升生成效率,我們定期間隔推理獲取關鍵幀后組裝,并采用幀插值技術增強視頻流暢度。
未知區(qū)域修復
如下圖3所示,點云渲染結果通常包含未知區(qū)域。類似于人類能根據(jù)物體前視圖想象其后部,擴散模型基于先驗知識也具備這種想象能力,因此應用其完成這些未知區(qū)域。
本文將參考圖像的CLIP特征作為條件注入UNet以防止域偏移。
?
在推理階段,首先生成點云序列的渲染結果,將獲得的圖像序列編碼為潛在變量并與噪聲樣本拼接。隨后使用訓練好的U-Net對潛在變量進行迭代去噪。最后通過VAE解碼器將結果轉換為高保真的視角轉換輸出,實現(xiàn)從不完整渲染到完整視覺效果過渡。
端到端優(yōu)化
為提升系統(tǒng)性能,在預訓練后,進一步探索模塊間的耦合優(yōu)化。由于上游模塊的token輸出導致梯度截斷,采用基于強化學習的方法實現(xiàn)端到端優(yōu)化,提升模型耦合效果。
將下游網(wǎng)絡作為獎勵模型,利用下游反饋指導上游模塊優(yōu)化。該反饋機制建立了上下游模塊的有效交互,顯著提升整體模型的協(xié)同性能,使下游評估結果能直接影響和改進上游生成過程。
?
實現(xiàn)類似RLHF(人類反饋強化學習)框架:首先凍結下游模型作為獎勵函數(shù);然后使用軌跡提取器獲取生成視頻的相機位姿序列,以各維度得分的平均值作為獎勵更新上游模型。同時為防止模型能力過度偏離,建立從上游模塊初始化并全程凍結的參考模型,確保模型在獲得新能力時保留原始性能。
實驗
實現(xiàn)細節(jié)
OmniCam采用三階段訓練策略:
實驗在8塊NVIDIA A100 GPU上進行。
評估指標
本文使用經(jīng)典指標評估生成視頻的質量,如 LPIPS、PSNR、SSIM、FID、NIQE 和 CLIPSR,這些指標衡量視頻質量與流暢度。
主要結果與消融實驗
如下表2所示,在通過文本描述獲取軌跡的任務中,比較了兩種主干模型。實驗結果表明,LLM 表現(xiàn)更優(yōu),因其更專注于文本理解,相比 VLM(視覺語言模型)展現(xiàn)出更強的理解能力。對于從視頻提取軌跡的任務,對比了三種方法:實驗顯示 Llama+SLAM方案效果最佳,因為相機位姿估計需要強三維空間感知能力,而當前 VLM 模型仍存在不足。因此,本文以成熟位姿估計算法為基礎,結合 LLM 與 MLP 作為映射器來校正生成軌跡。相比之下,SIFT 方法生成速度更快,但結果不理想。
在最優(yōu)訓練基礎上,本文采用離線策略強化學習。實驗表明強化學習效果不穩(wěn)定,但能帶來小幅提升,增強模型耦合性與準確性。下游反饋被用于優(yōu)化上游策略。下表3定量比較了多種有效方法的生成質量及其與真實分布的相似度。實驗證明本文的方法在生成高質量視頻方面更優(yōu)。如下圖4和下圖5所示,可視化展示了通過文本控制相機軌跡與通過視頻控制相機軌跡的效果。
通用討論與人工評估
本文對比了跨領域前沿方法,分析了不同技術路線的潛力,并指出重建方法、4D 重建等方案的缺陷。鑒于各領域模型功能差異顯著,采用統(tǒng)一量化評估指標既不公平也不可行,因此采用人工評估方式:邀請 50 名參與者按 1~5 分制評分(最終分數(shù)取整),布爾評估(如是否開源)中開源得 5 分,未開源得 1 分。結果如下圖6所示:
實驗發(fā)現(xiàn) ViewCrafter 交互繁瑣(尤其處理復雜指令時),且不支持從視頻學習相機軌跡;ZeroNVS作為新視角合成算法僅能單幀生成,使用不便;GenWrap推理速度快但存在泛化問題;CAT4D 作為 4D 模型受限于速度慢且未開源。此外,One-2-3-45++等重建方法針對單物體設計且不包含場景,故未納入本研究。
結論
OmniCam是一個統(tǒng)一的多模態(tài)視頻生成相機控制框架。它通過接收文本和視頻作為軌跡參考,以及圖像和視頻作為內容參考,生成符合用戶期望的視頻。利用 LLM 提取輸入特征,通過軌跡規(guī)劃算法獲取相機運動軌跡,最終結合3D重建與擴散模型生成完整視頻。
為支持 OmniCam 的全流程訓練,構建了首個專為相機控制設計的多模態(tài)數(shù)據(jù)集 OmniTr。實驗結果表明,模型在面對不同模態(tài)組合輸入時表現(xiàn)出卓越的魯棒性,并能準確生成符合用戶意圖的相機軌跡視頻。
本文轉自AI生成未來 ,作者:AI生成未來
