ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級
論文鏈接:https://arxiv.org/pdf/2502.17258
git 鏈接:https://knightyxp.github.io/VideoGrain_project_page/
亮點直擊
- 首次嘗試多粒度視頻編輯的方法。支持類別級、實例級和局部級的編輯。
- 提出了一個新穎的框架,稱為VideoGrain,該框架通過調節時空跨注意力和自注意力,實現文本到區域的控制以及區域間特征的分離。
- 在無需調整任何參數的情況下,在現有基準測試和真實世界視頻上都取得了定性和定量的最新成果。
總結速覽
解決的問題
- 多粒度視頻編輯的挑戰,特別是文本到區域控制的語義不匹配和擴散模型內部的特征耦合問題。
提出的方案
- 提出了一種名為VideoGrain的零樣本方法,通過調節時空(跨注意力和自注意力)機制,實現對視頻內容的精細化控制。
應用的技術
- 增強局部提示對其對應空間解耦區域的注意力,減少跨注意力中與無關區域的交互。
- 提升區域內部的感知能力,減少區域之間的干擾,以改進特征分離。
達到的效果
- 實現了支持類別級、實例級和局部級的多粒度視頻編輯。
- 在無需調整參數的情況下,在現有基準測試和真實世界視頻上取得了定性和定量的SOTA成果。
方法
動機
為了解釋為什么以往的方法在實例級視頻編輯中失敗(見下圖2),首先對擴散模型中的自注意力和跨注意力特征進行了基本分析。
如下圖3(b)所示,在DDIM反演過程中對每幀的自注意力特征應用了K-Means聚類。雖然聚類捕捉到了清晰的語義布局,但未能區分不同的實例(例如,“左邊的男人”和“右邊的男人”)。增加聚類數量會導致部分級別的更細分割,但無法解決這個問題,這表明實例間特征的同質性限制了擴散模型在多粒度視頻編輯中的有效性。
接下來,嘗試使用SDEdit將同一類的兩個男人編輯為不同的實例。然而,上圖3(d)顯示,“鋼鐵俠”和“蜘蛛俠”的權重在左邊的男人上重疊,“花朵”的權重泄漏到右邊的男人上,導致了(c)中的編輯失敗。因此,為了實現有效的多粒度編輯,提出以下問題:我們能否調節注意力,以確保每個局部編輯的注意力權重準確分布在預期區域?
本文提出了VideoGrain的兩個關鍵設計:(1) 調節跨注意力以引導文本特征聚集在相應的空間解耦區域,從而實現文本到區域的控制。(2) 在時空軸上調節自注意力,以增強區域內的焦點并減少區域間的干擾,避免擴散模型中的特征耦合。
問題表述
本工作的目的是基于給定的提示在多個區域進行多粒度視頻編輯。這涉及三個層次的編輯:
(1) 類別級編輯: 編輯同一類別內的對象。(例如,將兩個男人變為“蜘蛛俠”,兩者都屬于人類類別,如上圖2第二列所示)
(2) 實例級編輯: 將每個單獨實例編輯為不同的對象。(例如,將左邊的男人編輯為“蜘蛛俠”,右邊的男人編輯為“北極熊”,如圖2第三列所示)
(3) 部分級編輯: 對單個實例的特定元素進行部分級別的編輯。(例如,在將右邊的男人編輯為“北極熊”時添加“太陽鏡”,如上圖2第四列所示)
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
整體框架
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
與通過一個全局文本提示控制所有幀的方法不同,VideoGrain 允許在去噪過程中指定配對的實例級或部分級提示及其位置。我們的方法還可以靈活地結合 ControlNet 條件e ,例如深度圖或姿態圖,以提供結構化條件。
時空布局引導的注意力
基于前文的觀察,跨注意力權重分布與編輯結果密切相關。同時,自注意力對于生成時間一致性視頻也至關重要。然而,一個區域內的像素可能會關注到外部或相似的區域,這對多粒度視頻編輯造成了障礙。因此需要調節自注意力和跨注意力,使每個像素或局部提示僅關注正確的區域。
為實現這一目標,通過統一的“增強正向關聯、減少負向關聯”機制調節跨注意力和自注意力。具體而言,對于查詢特征的第i幀,我們對查詢-鍵(Query-Key)條件映射QK進行如下調節:
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
調節跨注意力以實現文本到區域控制 在跨注意力層中,文本特征作為鍵(key)和值(value),并與來自視頻潛變量的查詢特征進行交互。由于每個實例的外觀和位置與跨注意力權重分布密切相關,我們的目標是將每個實例的文本特征聚集到對應的位置。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
如上圖4(中右)所示,在添加正值和減去負值后,“Spiderman”的原始跨注意力權重(例如p,)被放大并集中在左邊的人身上。而“polar”“bear”的干擾權重則集中在右邊的人身上。這表明我們的調節將每個提示的權重重新分配到目標區域上,實現了精確的文本到區域控制。
調節自注意力以保持特征分離 為了使T2I模型適應T2V編輯,將整個視頻視為“一個更大的圖像”,用時空自注意力替換空間注意力,同時保留預訓練權重。這增強了跨幀交互,并提供了更廣泛的視覺上下文。然而,簡單的自注意力可能導致區域關注不相關或相似的區域(例如,圖4底部,調節前查詢p關注兩個人),這會導致紋理混合。為了解決這個問題,需要加強同一區域內的正向關注,并限制不同區域之間的負向交互。
如上圖4(左下)所示,最大跨幀擴散特征表示同一區域內標記之間的最強響應。請注意,DIFT使用這一點來匹配不同的圖像,而我們專注于生成過程中的跨幀對應和區域內部注意力調節。然而,負向的區域間對應對于解耦特征混合同樣重要。超越DIFT,我們發現最小的跨幀擴散特征相似性可以有效地捕捉不同區域之間標記的關系。因此,定義時空正/負值為:
為了確保每個patch關注區域內的特征,同時避免區域間特征的交互,我們定義了時空查詢-鍵條件映射:
對于幀索引i和j,當token屬于跨幀的不同實例時,其值為零。
如上圖4底部右側所示,在應用我們的自注意力調節后,來自左側人物鼻子(例如,)的查詢特征僅關注左側實例,避免了對右側實例的干擾。這表明,我們的自注意力調節打破了擴散模型的類別級特征對應性,確保了實例級的特征分離。
實驗
實驗設置
在實驗中,采用預訓練的Stable Diffusion v1.5作為基礎模型,使用50步的DDIM反演和去噪過程。
ICLR 2025 | 視頻編輯最新SOTA!VideoGrain零樣本實現多粒度控制,精準到像素級-AI.x社區
所有實驗均在NVIDIA A40 GPU上進行。使用包含76個視頻-文本對的數據集評估VideoGrain,包括來自DAVIS (Perazzi et al., 2016)、TGVE1以及互聯網的視頻,每個視頻包含16-32幀。使用四個自動化指標進行評估:CLIP-T、CLIP-F、Warp-Err和Q-edit,這些指標參考(Wu et al., 2022; Cong et al., 2023),并全部縮放為100以便于展示。
對于基線方法,與以下T2I方法進行比較,包括FateZero、ControlVideo、TokenFlow、GroundVideo以及T2V方法DMT。為了確保時間一致性,我們采用FLATTEN和PnP。為了公平起見,所有T2I基線均配備相同的ControlNet條件。
結果
在涵蓋類別級、實例級和部分級編輯的視頻上評估了VideoGrain。本文的方法展示了在處理動物方面的多功能性,例如將“狼”轉變為“豬”(下圖5,左上)。對于實例級編輯,可以分別修改車輛(例如,將“SUV”轉變為“消防車”,將“貨車”轉變為“校車”),如下圖5右上所示。VideoGrain在編輯復雜遮擋場景中的多個實例方面表現出色,例如“蜘蛛俠和神奇女俠打羽毛球”(下圖5,中左)。以前的方法往往在處理這種非剛性運動時表現不佳。此外,本文的方法能夠進行多區域編輯,既可以編輯前景也可以編輯背景,如肥皂盒場景中,背景變為“森林中的湖上長滿苔蘚的石橋”(下圖5,中右)。得益于精確的注意力權重分配,可以無縫交換身份,例如在慢跑場景中,“鋼鐵俠”和“蜘蛛俠”交換身份(下圖5,左下)。對于部分級編輯,VideoGrain在調整角色穿上超人服裝的同時保持太陽鏡不變方面表現出色(下圖5,右下)。總體而言,對于多粒度編輯,VideoGrain表現出色。
定性和定量比較
定性比較。下圖6展示了VideoGrain與基線方法之間的比較,包括T2I和T2V方法的實例級和部分級編輯。為公平起見,所有T2I方法都使用ControlNet條件。(1) 動物實例:在左列,T2I方法如FateZero、ControlVideo和TokenFlow由于擴散模型中相同類別特征耦合,將兩只貓都編輯成熊貓,未能進行單獨編輯。即使是具有視頻生成先驗的DMT,也仍然將熊貓和玩具貴賓犬的特征混合在一起。相比之下,VideoGrain成功地將一個編輯成熊貓,另一個編輯成玩具貴賓犬。(2) 人類實例:在中間列,基線方法在相同類別特征耦合方面表現不佳,部分將兩個人都編輯成鋼鐵俠。DMT和Ground-A-Video也未能遵循用戶意圖,錯誤地編輯了左右實例。VideoGrain則正確地將右側人物轉變為猴子,打破了人類類別的限制。(3) 部分級編輯:在第三列,VideoGrain處理部分級編輯,如太陽鏡和拳擊手套。ControlVideo編輯了手套,但在太陽鏡和運動一致性方面表現不佳。TokenFlow和DMT編輯了太陽鏡,但未能修改手套或背景。相比之下,VideoGrain實現了實例級和部分級編輯,顯著優于以前的方法。
定量比較。使用自動化指標和人工評估來比較不同方法的性能。CLIP-T計算輸入提示與所有視頻幀之間的平均余弦相似度,而CLIP-F測量連續幀之間的平均余弦相似度。此外,Warp-Err通過根據源視頻的光流(使用RAFT-Large提取)扭曲編輯后的視頻幀來捕捉像素級差異。為了提供更全面的視頻編輯質量度量,遵循(Cong et al., 2023)并使用Q-edit,定義為CLIP-T/Warp-Err。為了清晰起見,我們將所有自動化指標縮放為100。在人工評估方面,我們評估了三個關鍵方面:編輯準確性(每個局部編輯是否準確應用)、時間一致性(參與者評估視頻幀之間的連貫性)和整體編輯質量。
本工作邀請了20名參與者對76個視頻-文本對在這三個標準上進行評分,評分范圍為20到100,遵循(Jeong & Ye, 2023)。如下表1所示,VideoGrain在T2I和T2V方法中始終表現優異。這主要歸功于ST-Layout Attn的精確文本到區域控制和保持區域之間的特征分離。因此,我們的方法在CLIP-T和編輯準確性得分上顯著高于其他基線。改進的Warp-Err和時間一致性指標進一步表明VideoGrain提供了時間上連貫的視頻編輯。
效率比較。為了評估效率,在單個A6000 GPU上比較了基線方法和VideoGrain對16幀視頻的編輯。指標包括編輯時間(執行一次編輯所需的時間)以及GPU和CPU內存使用情況。從下表2可以看出,我們的方法以最低的內存使用實現了最快的編輯時間,表明其計算效率。
消融研究
為了評估提出的ST-Layout Attn中不同組件的貢獻,首先評估我們的注意力機制是否能夠實現注意力權重分布,然后解耦自注意力調制和交叉注意力調制以評估它們各自的有效性。
注意力權重分布。評估ST-Layout Attn對注意力權重分布的影響。如下圖7所示,目標提示為“鋼鐵俠在雪地網球場打網球。”我們可視化了“人”的交叉注意力圖以評估權重分布。沒有ST-Layout Attn時,特征混合發生,“雪”的權重溢出到“鋼鐵俠”上。有了ST-Layout Attn,人物的權重被正確分配。這是因為我們在交叉和自注意力中增強了正對配對分數并抑制了負對配對分數。這使得“鋼鐵俠”和“雪”的精確、獨立編輯成為可能。
交叉注意力調制。在下圖8和下表3中,展示了不同設置下的視頻編輯結果:(1) 基線 (2) 基線 + 交叉注意力調制 (3) 基線 + 交叉注意力調制 + 自注意力調制。如下圖8右上所示,直接編輯未能區分左右實例,導致錯誤(左)或無編輯(右)。然而,當配備交叉注意力調制時,我們實現了準確的文本到區域控制,從而分別將左側人物編輯為“鋼鐵俠”和右側人物為“蜘蛛俠”。下表3中的定量結果表明,使用交叉注意力調制(第二行),CLIP-T增加了7.4%,Q-edit增加了63.9%。這證明了我們交叉注意力調制的有效性。
自注意力調制。然而,僅調制交叉注意力仍會導致結構失真,例如蜘蛛網出現在左側人物上。這是由于相同類別特征(例如,人類)的耦合造成的。使用我們的自注意力調制時,特征混合顯著減少,左側人物保留了獨特的物體特征。這是通過降低不同實例之間的負對分數,同時增加同一實例內的正對分數來實現的。因此,在優化區域中生成了更多部分級細節,例如獨特的藍色側面。表3中Warp-Err減少43.9%和Q-edit增加80.6%的定量結果進一步證明了自注意力調制的有效性。
結論
本文旨在解決多粒度視頻編輯的問題,包括類別級、實例級和部分級的視頻編輯。據我們所知,這是對該任務的首次嘗試。在這個任務中,我們發現關鍵問題是擴散模型將不同實例視為同類特征,直接的全局編輯會混合不同的局部區域。為了解決這些問題,我們提出了VideoGrain,以調制時空交叉和自注意力進行文本到區域的控制,同時保持區域之間的特征分離。在交叉注意力中,我們增強每個局部提示對其對應空間解耦區域的關注,同時抑制對不相關區域的注意力,從而實現文本到區域的控制。在自注意力中,我們增加區域內的感知并減少區域間的交互以保持區域之間的特征分離。大量實驗表明,我們的VideoGrain在類別級、實例級和部分級視頻編輯上均優于以往的視頻編輯方法。
本文轉自AI生成未來 ,作者:AI生成未來
