成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款 精華

發布于 2025-3-31 09:51
瀏覽
0收藏

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

文章鏈接:https://arxiv.org/pdf/2503.10634 
項目鏈接:immortalco.github.io/V2Edit

亮點直擊

  • V2Edit,一個簡單但多功能的框架,用于無需訓練的指令引導視頻和3D場景編輯。
  • 引入了協同機制,系統地控制視頻擴散中的去噪過程,并支持漸進式編輯,有效平衡原始視頻內容的保留與編輯指令的完成,所有功能都集成在一個統一的框架中,適用于多種編輯任務。
  • V2Edit在各種視頻和3D場景編輯任務中始終如一地實現了高質量、成功的編輯,包括現有方法無法解決的任務,從而在這兩個領域確立了最先進的性能。

總結速覽

解決的問題

  • 視頻編輯中的挑戰:現有視頻編輯方法在處理時間一致性、快速移動的相機軌跡、復雜運動和顯著時間變化時存在困難。
  • 原始內容保留與編輯任務完成的平衡:現有訓練自由模型在滿足編輯指令的同時,難以有效保留原始視頻內容,且需要大量超參數調優。
  • 3D場景編輯的挑戰:現有視頻編輯方法在處理大規模相機運動和顯著時間變化時,難以生成具有強3D一致性的編輯結果。

提出的方案

  • V2Edit框架:提出了一種新穎的訓練自由框架,用于指令引導的視頻和3D場景編輯。
  • 漸進式策略:將復雜的編輯任務分解為一系列較簡單的子任務,逐步完成每個子任務。
  • 協同控制機制:通過初始噪聲、每個去噪步驟中添加的噪聲以及文本提示與視頻內容之間的交叉注意力圖來控制每個子任務。
  • “渲染-編輯-重建”過程:將視頻編輯方法擴展到3D場景編輯,通過固定相機軌跡渲染場景視頻,編輯渲染視頻,然后從編輯后的視頻重建場景。

應用的技術

  • 視頻擴散模型:利用預訓練的視頻擴散模型進行訓練自由的視頻編輯。
  • 噪聲調度器:通過逐步添加噪聲來傳遞語義信息,保留原始視頻的低頻特征。
  • 交叉注意力圖:在去噪過程中,利用模型的交叉注意力圖來控制原始內容的保留。
  • 3D一致性重建:通過渲染視頻的時間一致性,確保重建場景的強3D一致性。

達到的效果

  • 高質量視頻編輯:在各種具有挑戰性的視頻編輯任務中,V2Edit能夠處理更復雜的場景,包括更長的視頻、更快的相機軌跡和更大的時間變化。
  • 高質量3D場景編輯:V2Edit支持顯著的幾何變化,如對象插入,這是現有3D場景編輯方法無法實現的。
  • 高效編輯:無需耗時的逐視圖調整,確??焖偈諗浚瑢崿F高效視頻編輯。
  • 最先進的性能:在視頻和3D場景編輯領域,V2Edit建立了最先進的性能。

方法

在 V2Edit 中,利用預訓練的視頻擴散模型作為多功能視頻編輯的基礎,而無需在配對數據集上進行特定訓練??蚣苋缦聢D2所示,采用漸進式編輯過程,將復雜的編輯任務分解為一系列較簡單的子任務。為了在確保高質量編輯的同時保留原始視頻內容,本文實現了一種無需訓練的保留控制機制,系統地管理擴散過程的三個關鍵方面:(i) 初始噪聲,(ii) 每個去噪步驟中添加的噪聲,以及 (iii) 文本提示與視頻內容之間的交叉注意力圖。這種方法通過一致的保留控制策略(無需超參數調優),確保在有效應用預期修改的同時,穩健地保留視頻的原始元素。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

提示生成

利用大視覺語言模型(LVLMs)將編輯指令轉換為兩個描述性提示:一個用于原始視頻,另一個用于編輯后的視頻。這一點至關重要,因為大多數文本到視頻擴散模型需要描述視頻內容本身的提示。通過生成這些定制提示,本文框架確保底層擴散模型能夠有效地執行指令引導的編輯,同時保持原始視頻內容的結構和完整性。

原始內容保留控制

為了在編輯過程中保留原始視頻內容,V2Edit 采用了三種互補的控制機制:(1) 控制初始噪聲以保留低頻信息;(2) 調節每個去噪步驟中添加的噪聲以保留語義細節;(3) 利用交叉注意力圖確保文本提示與視頻內容之間的對齊。這些機制協同工作,在實現有效編輯的同時保持原始視頻的完整性,確保在各種編輯任務中成功推進。下圖3展示了本文保留控制方法的可視化。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

基于進展的編輯過程

不同的編輯任務可能需要不同級別的保留控制。一個簡單且容易的編輯任務可以在較低或較高的保留控制水平下成功,但一個顯著改變外觀的更具挑戰性的編輯任務在保留控制過于嚴格時可能會失敗。為了解決不同編輯任務中保留控制需求的變化,V2Edit 采用了一種基于進展的策略,將復雜的編輯任務分解為一系列較簡單的子任務。由于每個分解的子任務都較為簡單,易于在原始內容保留和編輯任務完成之間取得平衡,這種分解使本文能夠在所有子任務中應用一致的保留控制策略,而無需針對任務進行調整。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

通過混合系數進行指導。通過這種雙重指導生成逐步完成每個子任務,V2Edit 在各種場景中保持高質量和語義一致的編輯。這種協同方法有效地平衡了原始內容的保留與編輯指令的完成,確保從一個子任務到下一個子任務的平滑和成功進展,而無需設計不同級別的控制機制的復雜性。

高效且穩定的3D場景編輯

除了其原生視頻編輯能力外,V2Edit 通過引入簡單的“渲染-編輯-重建”(RER)過程,無縫擴展到3D場景編輯:沿固定相機軌跡渲染原始場景的視頻,使用 V2Edit 進行視頻編輯,然后從編輯后的視頻中重建并重新渲染場景。


為了確保3D一致性,本文修改了漸進式編輯框架,使得在獲得每個子任務的編輯視頻后,可以將其重建為3D并重新渲染為視頻以供下一個子任務使用。這種修改利用了渲染視頻的時間平滑性和重建的3D一致性,確保編輯視頻具有強3D一致性。與之前需要迭代數據集更新和額外訓練的3D編輯方法不同,本文方法保持穩定且高效,能夠以最少的擴散生成實現高質量編輯。此外,本文編輯視頻的時間一致性允許進行顯著的幾何變化,例如對象插入,這在以前由于每視圖編輯結果不一致而具有挑戰性。

實驗

實驗設置

V2Edit 設置:使用 CogVideoX-5b作為底層視頻擴散模型,這是一個基于 diffusion transformer(DiT)的文本到視頻模型,并支持類似 SORA的長描述作為輸入提示。本文使用 GPT-4o作為大型視覺語言模型(LVLM)為底層 CogVideoX 生成提示。在本文漸進式框架中,每個編輯任務最多允許分解為六個(6)個子任務。對于3D場景編輯任務,V2Edit 獨立于特定的場景表示方法。因此,本文選擇 NeRFStudio中的 SplactFacto 或 NeRFacto 作為場景表示。


視頻編輯任務:與之前的工作[35]一致,使用 DAVIS 數據集中的視頻作為源視頻。評估的編輯任務由 GPT-4o 根據原始視頻輸入建議生成。


視頻編輯基線:將 V2Edit 與視頻編輯基線進行比較,這些基線大致分為兩類:(1) 基于圖像的方法,依賴于底層圖像生成模型,包括 Slicedit和用于單目場景的 Instruct 4D-to-4D;(2) 基于視頻的方法,利用底層視頻生成模型,包括 CogVideoX-V2V、VideoShop、StableV2VAnyV2V、BIVDiff(逐幀編輯和整體優化)以及 CSD。一些基于圖像的方法需要編輯后的第一幀作為指導,本文一致使用 Instruct-Pix2Pix生成該幀。


3D場景編輯任務:與之前的場景編輯方法[6, 10, 40]一致,本文主要使用 Instruct-NeRF2NeRF (IN2N) 數據集中的場景進行比較評估。本文還使用 NeRFStudio中的一些戶外場景作為更具挑戰性的任務。對于場景的相機軌跡,本文使用現有軌跡(對于 IN2N 數據集,使用官方提供的軌跡)或手動繪制軌跡(對于其他場景)。


3D場景編輯基線:本文將 V2Edit 與最先進的傳統基于圖像的3D場景編輯方法進行比較,包括 Instruct-NeRF2NeRF (IN2N)、Efficient-NeRF2NeRF和 V2Edit。


V2Edit 變體用于消融研究:在正文中,本文提供了以下關鍵 V2Edit 變體的消融研究:(1) CogVideoX-V2V,同樣使用 CogVideoX作為底層視頻擴散模型;(2) No Progression (NP),僅在不使用進展的情況下應用本文原始保留控制。


評估指標:視頻編輯任務的評估包含多個方面,包括整體視覺質量、原始視頻保留和編輯任務完成度。使用傳統方法評估這些方面具有挑戰性。因此,本文使用 GPT-4o進行評估,這可以被視為 VQAScore的蒙特卡羅模擬。本文向 GPT 提供每個方面的要求、編輯指令以及原始和編輯后的視頻逐幀內容,然后要求 GPT 為每個方面提供1到100的評分。為了比較本文與不同基線的多個視頻,本文同時向 GPT 提供所有這些視頻,并要求 GPT 一起評分以確保一致的評分規則。為避免隨機性,本文使用20次獨立評估的平均值作為最終結果。利用 GPT 的視覺語言推理能力,該指標可以量化編輯視頻的不同方面。本文還提供了用戶研究以及基于 CLIP的評分:CLIP 文本-圖像方向相似性 (CTIDS) 和 CLIP 方向一致性 (CDC)。

實驗結果

視頻編輯:在 DAVIS數據集上的視頻編輯可視化結果如下圖4所示,更多結果請參見本項目網站。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

本文 V2Edit 在各種具有挑戰性的任務中始終如一地成功編輯并生成高保真結果,例如為摩托車手添加一個火焰環以穿過,或將一個快速移動的人變成蝙蝠俠;同時成功保留了無關部分,例如“蝙蝠俠”任務中網球場的墻壁和布局以及網球運動員的動作,“豬”任務中農場中的物體,以及“天鵝”任務中的河流。相比之下,每個基線方法要么無法完成編輯,要么無法保留原始場景中的無關部分——尤其是原始姿勢和動作。值得注意的是,基線方法 CogVideoX-V2V 是一種在 CogVideoX 上應用 SDEdit的官方方法,可以視為本文方法的一個變體。該基線生成的視頻外觀良好,但未能保留原始場景中的大部分信息。這驗證了本文保留控制方法的關鍵性。這表明,高質量編輯結果并非源于本文使用的強大底層 CogVideoX,而是源于本文新穎的原始保留和進展流程。


3D場景編輯:3D場景編輯的結果如下圖5和下圖6所示,更多結果請參見本文項目網站。如下圖5所示,本文 V2Edit 在包含顯著幾何變化的挑戰性編輯任務中取得了成功,具有清晰的外觀和合理的幾何結構,尤其是在“小獅子”編輯中。例如,對象插入任務中,所有基線方法均未能完成大多數任務——要么無法滿足編輯要求,要么完全改變了原始場景的外觀,或者兩者兼而有之。除了面向正面的場景外,本文 V2Edit 在圖6中的室內或室外場景中也表現出色,能夠很好地完成編輯指令并保留原始場景。值得注意的是,通過本文在前文中自行實現的基于 Flash Attention的加速,編輯一個72幀的視頻在漸進式框架中每個子任務僅需10分鐘。因此,一個最多包含六個進展子任務的編輯任務僅需大約一到兩個小時即可完成,實現了與簡單基線相當的效率,但生成了顯著更優的結果。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

定量評估:本文在幾個具有代表性的編輯任務上進行了定量評估,結果如下表1所示,包括一項涉及43名參與者的用戶研究,以評估主觀質量。本文 V2Edit 在視頻和3D場景編輯的所有指標上均一致優于所有基線方法。具體而言,V2Edit 成功平衡了原始內容保留(通過“CDC”指標量化原始場景與編輯場景之間的相鄰幀相似性)和編輯任務完成度(通過基于 GPT 的評估和用戶研究結果證明)。這些發現確立了 V2Edit 在視頻和3D場景編輯領域的最先進地位。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

消融研究:如上圖4所示,基線方法 CogVideoX-V2V 在各種編輯任務中生成了高質量視頻,但始終無法保留原始視頻中的無關內容。該基線有效地代表了僅使用初始噪聲控制的 V2Edit 變體。這些結果表明,僅依靠強大的視頻擴散模型不足以實現高質量編輯,必須結合有效的內容保留機制,這凸顯了本文保留控制策略的必要性。此外,如下圖7所示,在沒有進展框架的情況下直接應用本文內容保留機制會導致復雜任務(例如添加時鐘)失敗。相比之下,當結合基于進展的編輯策略時,V2Edit 成功構建并優化了時鐘,實現了高質量結果。值得注意的是,時鐘指針在所有視圖中保持一致,展示了出色的3D一致性。這些實驗驗證了本文內容保留機制和進展框架都是必不可少的,它們不僅確保了內容保留,還實現了編輯任務的完成。

顛覆傳統!V2Edit零訓練黑科技:指令級視頻魔法+3D場景大改,原畫質無損秒變爆款-AI.x社區

結論

V2Edit,一種新穎且多功能的指令引導視頻和3D場景編輯框架。本文方法通過將復雜任務逐步分解為較簡單的子任務,并由統一的保留控制機制管理,有效平衡了原始內容的保留與編輯指令的完成。對于視頻編輯,V2Edit 在處理涉及快速移動的相機軌跡、復雜運動和顯著時間變化的挑戰性場景時表現出色,確保平滑一致的編輯。對于3D場景編輯,本文框架支持具有顯著幾何變化的挑戰性編輯任務,同時保持高3D一致性并充分保留原始場景內容。大量實驗表明,V2Edit 在視頻和3D場景編輯中實現了最先進的性能。本文希望 V2Edit 能為未來利用視頻擴散模型進行視頻和3D場景編輯的進展鋪平道路。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/g3-GfWQhE7PcG4GHiTssQQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 在线视频中文字幕 | 大香网伊人| 国产精品三级久久久久久电影 | 国产高清在线精品 | 免费观看a级毛片在线播放 黄网站免费入口 | 精品真实国产乱文在线 | 日韩免费毛片视频 | 天堂网avav| 狠狠色狠狠色综合日日92 | 亚洲男人网 | 91视频网址| 日韩三区在线观看 | 一区二区三区视频在线 | 在线播放国产一区二区三区 | 色综合国产 | 一区二区免费看 | 亚洲第一天堂 | 久久久看 | 日韩精彩视频 | 91.xxx.高清在线 | 精品一区二区在线观看 | 亚洲三区视频 | 欧美一区二区在线 | 男人天堂久久久 | 日韩高清在线观看 | 中文字幕免费视频 | 国产精品视频久久 | 国产精品久久影院 | 欧美影院 | www国产成人免费观看视频,深夜成人网 | 99精品国产一区二区三区 | 久久久久久久久久影视 | 久久中文字幕一区 | 亚洲综合二区 | 在线观看三级av | 国产视频1区 | 国产精品明星裸体写真集 | 免费在线一区二区 | 麻豆精品久久久 | 国产精品视频偷伦精品视频 | 澳门永久av免费网站 |