成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作

發布于 2025-6-5 09:37
瀏覽
0收藏

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

文章鏈接:https://arxiv.org/pdf/2506.03140 
項目鏈接:https://camclonemaster.github.io/

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

亮點直擊

  • CamCloneMaster,一種新穎的框架,能夠實現基于參考視頻的精確相機控制來生成視頻。該框架無需相機參數或測試時微調,為用戶提供了便捷直觀的體驗。
  • CamCloneMaster通過標記拼接(token concatenation)這一簡單高效的方法,在單一模型中集成了相機控制的圖像到視頻(I2V)生成和視頻到視頻(V2V)重生成功能,無需額外的控制模塊。
  • 構建了用于相機克隆學習的Camera Clone數據集:一個大規模、高質量的配對視頻集合,包含相同相機軌跡和動態場景。該數據集將公開發布以推動未來研究。

總結速覽

解決的問題

  • 繁瑣的相機參數控制:現有方法依賴顯式的相機參數序列作為控制條件,用戶需手動構建復雜的相機運動軌跡,操作不便。
  • 相機參數估計不準確:從參考視頻中估計相機參數的精度受限,影響生成視頻的相機運動控制效果。
  • 計算成本高:現有方法(如MotionClone)需額外的測試時微調或運動表示提取,引入額外計算開銷。
  • 缺乏專用數據集:缺少包含相同相機軌跡或動態場景的配對視頻數據集,制約模型訓練。

提出的方案

  • CamCloneMaster框架
  • 無需顯式相機參數或測試時微調,直接通過參考視頻克隆相機運動。
  • 支持統一的圖像到視頻(I2V)和視頻到視頻(V2V)任務,用戶可通過參考視頻指定相機運動或內容。
  • 模型設計
  • 將條件標記(參考視頻信息)與噪聲視頻標記直接拼接為統一輸入序列,避免額外控制模塊,參數高效。
  • Camera Clone數據集
  • 使用Unreal Engine 5構建大規模合成數據集,包含39.1K場景、391K視頻、97.75K相機軌跡,覆蓋多樣環境與動態內容。

應用的技術

  • 端到端訓練框架:通過直接學習參考視頻的相機運動,繞過顯式參數估計。
  • 標記拼接(Token Concatenation):簡化控制流程,統一處理條件與生成內容。
  • 合成數據生成:基于規則自動生成多樣化相機軌跡,模擬真實拍攝場景。

達到的效果

  • 控制便捷性:用戶僅需提供參考視頻即可復現復雜相機運動,降低使用門檻。
  • 性能優勢
  • 相機控制準確性:在RealEstate10K和經典電影片段測試中,相機運動復現精度優于現有方法。
  • 視覺質量:生成視頻的動態效果和畫面質量獲用戶主觀評價認可(47人參與實驗)。
  • 多功能支持:單一模型同時支持I2V(給定圖像+相機運動參考)和V2V(給定視頻+運動參考)任務,擴展應用場景。

CamCloneMaster

CamCloneMaster設計。首先介紹基礎模型的組成部分,接著解釋從參考視頻中提取相機運動作為引導的方法,最后介紹CamCloneMaster的訓練策略。

初步:基礎模型

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

訓練目標采用簡單的均方誤差(MSE)損失:

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

通過Token拼接注入參考視頻

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

訓練策略

本文的目標是通過參考視頻微調模型以實現相機運動克隆,同時保留其基礎生成能力。為兼顧效率與能力保留,僅選擇性微調DiT塊中的3D時空注意力層。為使單一模型同時具備圖像到視頻和視頻到視頻能力,我們采用平衡訓練策略:50%為相機控制的圖像到視頻生成,50%為視頻到視頻重生成。

相機克隆數據集

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

構建三元組需滿足兩個關鍵要求:

  1. 同步多視角采集:多個相機需以不同軌跡同時拍攝同一場景;
  2. 配對軌跡:不同地點需存在相同相機軌跡的配對鏡頭。實現策略如下:在單個地點部署10臺同步相機,每臺按預設的10種獨特軌跡拍攝;為創建配對軌跡,將3D場景地點分為四組,確保每組內所有地點復現相同的10種相機軌跡。相機軌跡通過設計規則自動生成,涵蓋基礎移動、弧形運動等復雜路徑。

最終數據集包含:

  • 40個場景中39.1K個不同地點拍攝的391K條視覺真實視頻
  • 97.75K種多樣相機軌跡
  • 基于這些視頻構建的1,155K個三元組視頻集每條視頻分辨率576×1,008,共154幀。

實驗

實驗設置

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

評估集

  • 相機運動參考:從RealEstate10K測試集隨機選取1,000條視頻,提供1,000種相機軌跡并附帶相機參數(作為參數依賴方法的條件輸入)。
  • 內容參考:從Koala-36M隨機選取1,000條視頻(圖像到視頻任務中僅使用首幀作為條件輸入)。

評估指標

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

與前沿方法對比

相機控制的圖像到視頻生成

基線方法:對比Plücker嵌入相機表示的CameraCtrl和CamI2V,以及無訓練框架MotionClone(通過稀疏時序注意力權重克隆參考視頻運動)。MotionClone雖無需相機參數,但難以處理復雜相機運動。


定量結果:如下表1所示,CamCloneMaster在相機控制(RotErr/TransErr/CamMC)上顯著優于其他方法,同時保持更優的視覺與動態質量。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

定性結果:如下圖4所示,本文的方法精準克隆參考相機運動(如左例帆船細節結構與右例猴子復雜運動),而CameraCtrl/CamI2V難以跟蹤復合軌跡(如左例平移旋轉組合),MotionClone則因泛化性限制無法保持主體一致性。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

相機控制的視頻到視頻重生成

基線方法:對比需要相機參數輸入的DaS、ReCamMaster和TrajectoryCrafter。DaS通過3D點跟蹤從內容參考視頻提取動態信息,ReCamMaster采用視頻條件機制,TrajectoryCrafter則從內容參考構建點云并渲染新視角作為控制信號。


定量結果:如上表1和下表2所示,CamCloneMaster在多項指標上超越基線方法。本文的方法不僅能精確控制相機并保持高視覺質量,還能有效保留內容參考的動態場景。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

定性結果:如下圖5所示,基線方法普遍無法生成準確相機運動的視頻。具體而言,DaS和TrajectoryCrafter會產生明顯偽影,而本文的方法能精準克隆參考視頻的相機運動,輸出具有高視覺質量和時序一致性的結果。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

用戶研究

本文通過用戶研究揭示相機位姿精度對參數化方法的重要性及其獲取挑戰。參與者需比較成對視頻:一組使用真實相機參數生成,另一組使用MegaSam估計參數生成,選擇哪組視頻的相機運動更匹配參考。實驗基于CamI2V、CameraCtrl和ReCamMaster三種參數化方法,從合成數據集中隨機選取12條帶真實參數的相機運動參考視頻。47名參與者的結果(下表3)顯示:

  1. 參數化方法的相機運動保真度高度依賴輸入參數精度;
  2. 即使最先進的位姿估計模型也難以提供足夠精確的參數,這驗證了我們提出的基于參考的相機控制框架的必要性。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

另一項用戶研究從主觀角度評估不同方法。從網絡收集24條1080×1920分辨率的相機運動參考和12條內容參考。測試時,參與者同時觀看4個隨機排序的視頻(本文的方法+3個任務相關基線方法生成結果),從三個維度評估:

  1. 相機精度:相機運動與參考視頻的匹配度;
  2. 視頻-文本一致性:內容與文本提示的契合度;
  3. 時序一致性。47名參與者的結果(下表4)表明本文的方法在各項指標上均獲得最多用戶偏好。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

消融實驗

條件注入機制的消融實驗。本文的模型通過將條件tokens與噪聲潛在tokens沿幀維度拼接來實現視頻生成的條件控制。本文驗證了這種幀拼接方式與廣泛使用的通道拼接的對比效果。同時測試了僅在時序DiT塊層內拼接條件標記的方案,因為條件tokens與噪聲tokens之間的顯式注意力僅限于3D時空注意力層。最后,將token拼接與類ControlNet架構進行對比,后者通過復制DiT塊提取參考視頻特征,再通過特征加法注入基礎模型。下表5結果表明,在所有層中拼接條件標記對最優性能至關重要(第2、4行)。我們認為全局視頻屬性(如相機運動)需要高層表征,因此即使是不含顯式注意力機制的層也對提取這些屬性起關鍵作用。此外,標記拼接優于類ControlNet的特征加法(第3、4行),這可能是因為特征加法會加大模型區分參考內容與運動線索的難度。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

訓練策略的消融實驗。僅微調DiT塊中的3D時空注意力層,并凍結其余參數。下表6結果顯示,僅微調3D時空注意力層可提升相機克隆精度,同時保持更好的視覺質量。

好萊塢級運鏡一鍵克隆!港中文&浙大&快手聯合發布CamCloneMaster:顛覆影視制作-AI.x社區

結論與局限性

CamCloneMaster,一種新穎的視頻生成相機控制方法,支持直觀且用戶友好的操作。CamCloneMaster無需相機參數或測試時微調即可復制參考視頻的相機運動。另一創新是簡潔高效的架構,無需額外控制模塊即可將相機控制的圖像到視頻生成(I2V)與視頻到視頻再生(V2V)統一于單一模型中。我們還構建了高質量合成數據集用于訓練。

局限性。盡管tokens拼接策略在相機控制視頻生成中表現優異,但會增加計算負擔。未來工作將探索稀疏注意力或潛在丟棄等方法以降低開銷。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/z8yNl_6lThygMqs-5fQbZg??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线91 | 亚洲一区二区免费视频 | 国产精品99精品久久免费 | 看羞羞视频免费 | 久久久免费少妇高潮毛片 | 成人三级视频 | 精品国产乱码久久久久久蜜柚 | 久久久成人免费视频 | 久国产视频 | 久久精品99久久 | 男女免费视频网站 | 99精品久久| 色999日韩 | 日韩在线欧美 | 欧美精品一级 | 成人精品久久日伦片大全免费 | 久久99精品久久久久久国产越南 | 欧美色性| 99精品在线| 91麻豆久久久 | 亚洲日本一区二区 | 亚洲va国产日韩欧美精品色婷婷 | 在线视频一区二区 | 91久久久久久| 一区二区三区四区不卡视频 | 成人亚洲 | 亚洲黄色在线免费观看 | 久久精品国产99国产精品 | 美女毛片 | 精品免费国产一区二区三区四区 | 日韩中文电影 | 欧美国产激情 | 国产在线播放一区二区三区 | 亚洲一二三视频 | 一级黄色毛片 | 青青草精品视频 | 天天操狠狠操 | 99pao成人国产永久免费视频 | 天天综合久久网 | 九九精品在线 | 国产精品久久久久久久久久久免费看 |