即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!
文章鏈接:https://arxiv.org/pdf/2503.05639
項目鏈接:https://yxbian23.github.io/project/video-painter/
git鏈接:https://github.com/TencentARC/VideoPainter
亮點直擊
- 提出了VideoPainter,首個支持即插即用背景控制的雙分支視頻修復框架。
- 設計了一個輕量級上下文編碼器,用于高效且密集的背景控制,并引入了修復區域ID重采樣技術,以在任意長度的視頻修復和編輯中保持ID一致性。
- 推出了VPData,這是最大的視頻修復數據集,包含超過390K個片段(>866.7小時),以及VPBench,兩者均具備精確的masked和詳細的視頻描述。
- 實驗表明,VideoPainter在視頻修復和編輯中,在包括視頻質量、masked區域保留和文本對齊等8項指標上均達到了最先進性能。
總結速覽
解決的問題
- 生成完全masked目標:現有方法在處理完全masked的目標時存在困難。
- 背景保留與前景生成的平衡:現有方法難以在保留背景的同時生成前景。
- 長視頻中的ID一致性:現有方法在長視頻中難以保持目標ID的一致性。
提出的方案
- VideoPainter框架:提出了一種高效的雙分支框架,包含一個輕量級的上下文編碼器。
- 上下文編碼器:該編碼器處理masked視頻并將背景指導注入到任何預訓練的視頻擴散Transformer中。
- ID一致性策略:引入了一種重新采樣修復區域的策略,以保持長視頻中的ID一致性。
- 數據集和基準:開發了一個可擴展的數據集管道,構建了VPData和VPBench,這是最大的視頻修復數據集和基準。
應用的技術
- 雙分支架構:采用雙分支架構,分別處理背景保留和前景生成。
- 輕量級上下文編碼器:僅占主干參數6%的輕量級上下文編碼器,集成到預訓練的擴散Transformer中。
- 掩碼選擇性特征集成:明確區分masked和非masked區域的標記。
- ID-Adapter:通過ID-Adapter增強主干的注意力采樣,確保長視頻中的ID一致性。
達到的效果
- 高效訓練和最終結果:VideoPainter在訓練效率和最終結果上表現出色。
- 大規模訓練和評估:構建了包含超過390K個剪輯的VPData和VPBench,支持大規模訓練和評估。
- 下游應用潛力:展示了VideoPainter在視頻編輯等下游應用中的潛力。
- 最先進性能:在8個關鍵指標上展示了最先進的性能,包括視頻質量、masked區域保留和文本一致性。
方法
下圖3展示了構建VPData和VPBench的流程。下圖4展示了雙分支VideoPainter。后面介紹了用于任意長度視頻修復和即插即用控制的修復區域ID重采樣方法。
VPData和VPBench構建流程
為了解決數據集規模有限和缺乏文本標注的問題,本文提出了一個利用先進視覺模型的可擴展數據集構建流程。這最終形成了VPData和VPBench,這是最大的視頻修復數據集和基準,具備精確的masked和視頻/masked區域描述。如上圖3所示,該流程包括5個步驟:收集、標注、分割、選擇和描述。
收集
選擇Videvo和Pexels作為數據源,最終從這些來源獲得了約450??個視頻。標注對于每個收集的視頻,實施了一個級聯工作流進行自動標注:
- 使用Recognize Anything Model 進行開放集視頻標注,以識別主要目標。
- 基于檢測到的目標標簽,利用Grounding DINO 在固定間隔檢測目標的邊界框。
- 這些邊界框作為SAM2的提示,生成高質量的masked分割。
分割
在從不同角度跟蹤同一目標時,可能會發生場景轉換,導致視角的破壞性變化。本文使用PySceneDetect識別場景轉換,并隨后分割masked。然后我們將序列分割為10秒的間隔,并丟棄較短的片段(<6秒)。
選擇
采用3個關鍵標準:
- 美學質量:使用Laion-Aesthetic Score Predictor進行評估。
- 運動強度:通過RAFT的光流測量進行預測。
- 內容安全性:通過Stable Diffusion Safety Checker進行評估。
描述
如下表1所示,現有的視頻分割數據集缺乏文本標注,這是生成任務的主要條件 ,這為將生成模型應用于視頻修復創造了數據瓶頸。因此,利用最先進的視覺語言模型(VLMs),特別是CogVLM2和GPT-4o,均勻采樣關鍵幀并生成密集的視頻描述和masked目標的詳細描述。
雙分支修復控制
本文過一個高效的上下文編碼器將masked視頻特征整合到預訓練的擴散Transformer(DiT)中,以解耦背景上下文提取和前景生成。該編碼器處理噪聲隱空間表示、masked視頻隱空間表示和下采樣masked的拼接輸入。具體來說,噪聲隱空間表示提供了當前生成的信息。通過VAE提取的masked視頻隱空間表示與預訓練DiT的潛在分布對齊。應用三次插值對masked進行下采樣,確保masked與隱空間表示之間的維度兼容性。
基于DiT固有的生成能力,控制分支僅需提取上下文線索以指導主干網絡保留背景并生成前景。因此,與之前復制主干網絡一半或全部的重型方法不同,VideoPainter采用輕量級設計,僅克隆預訓練DiT的前兩層,僅占主干網絡參數的6%。預訓練DiT的權重為提取masked視頻特征提供了強大的先驗。上下文編碼器特征以分組和標記選擇的方式集成到凍結的DiT中。分組特征集成公式如下:
第一層的特征被添加回主干網絡的前半部分,而第二層的特征被集成到后半部分,從而實現輕量級且高效的上下文控制。標記選擇機制是一個預過濾過程,其中僅表示純背景的標記被添加回去,而其他標記被排除在集成之外,如前圖4右上角所示。這確保了只有背景上下文被融合到主干網絡中,防止主干網絡生成過程中的潛在歧義。
目標區域ID重采樣
盡管當前的DiT在處理時間動態方面表現出潛力,但它們難以保持平滑過渡和長期身份一致性。
平滑過渡
借鑒AVID,本文采用重疊生成和加權平均來保持一致的過渡。此外,利用前一剪輯的最后一幀(重疊之前)作為當前剪輯重疊區域的第一幀,以確保視覺外觀的連續性。
身份一致性
即插即用控制
本文的即插即用框架在兩個方面展示了多功能性:它支持各種風格化主干或LoRA,并且兼容文本到視頻(T2V)和圖像到視頻(I2V)的DiT架構。I2V兼容性特別支持與現有圖像修復能力的無縫集成。當使用I2V DiT主干時,VideoPainter僅需一個額外步驟:使用任何圖像修復模型生成初始幀,該模型由masked區域的文本描述引導。修復后的幀隨后作為圖像條件和第一個masked視頻幀。這些能力進一步展示了VideoPainter的卓越可遷移性和多功能性。
實驗
實現細節
基準測試
在視頻修復中,本文使用Davis作為隨機masked的基準,使用VPBench作為基于分割的masked基準。VPBench包含100個6秒的視頻用于標準視頻修復,以及16個平均時長超過30秒的視頻用于長視頻修復。VPBench涵蓋多樣化的內容,包括物體、人類、動物、景觀和多范圍masked。對于視頻編輯評估,也使用VPBench,其中包含四種基本編輯操作(添加、移除、替換和更改),包括45個6秒的視頻和9個平均時長為30秒的視頻。
評估指標
本文從三個方面考慮8個指標:masked區域保留、文本對齊和視頻生成質量。
- masked區域保留:本文遵循先前的工作,使用標準PSNR、LPIPS、SSIM 、MSE 和MAE來評估生成視頻與原始視頻在未masked區域的差異。
- 文本對齊:本文使用CLIP相似度(CLIP Sim)來評估生成視頻與其對應文本描述的語義一致性。本文還測量masked區域內的CLIP相似度(CLIP Sim (M))。
- 視頻生成質量:遵循先前的方法,本文使用FVID來評估生成視頻的質量。
視頻修復
定量比較
下表2展示了在VPBench和Davis上的定量比較。比較了非生成方法ProPainter、生成方法COCOCO以及本文提出的強基線Cog-Inp的修復結果。Cog-Inp使用圖像修復模型修復第一幀,并通過I2V主干結合潛在混合操作傳播結果。在基于分割的VPBench中,ProPainter和COCOCO在大多數指標上表現最差,主要原因是無法修復完全masked的目標以及單主干架構難以平衡背景保留和前景生成。在隨機masked基準Davis中,ProPainter通過利用部分背景信息有所改進。然而,VideoPainter通過其雙分支架構有效解耦背景保留和前景生成,在分割(標準和長視頻)和隨機masked任務中均實現了最佳性能。
定性比較
下圖5展示了與之前視頻修復方法的定性比較。VideoPainter在視頻一致性、質量和文本描述對齊方面始終表現出色。值得注意的是,ProPainter無法生成完全masked的目標,因為它僅依賴于背景像素傳播而非生成。COCOCO雖然展示了基本功能,但由于其單主干架構試圖平衡背景保留和前景生成,無法在修復區域保持一致的ID(如船只外觀不一致和地形突變)。Cog-Inp實現了基本的修復結果,但其混合操作無法檢測masked邊界,導致明顯的偽影。此外,VideoPainter能夠生成超過一分鐘的連貫視頻,并通過ID重采樣保持ID一致性。
視頻編輯
VideoPainter可用于視頻編輯,通過視覺語言模型根據用戶編輯指令和源描述生成修改后的描述,并應用VideoPainter基于修改后的描述進行修復。下表3展示了在VPBench上的定量比較。我們比較了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的編輯結果。在VPBench的標準和長視頻中,VideoPainter均表現出色,甚至超越了端到端的ReVideo。這一成功歸功于其雙分支架構,確保了出色的背景保留和前景生成能力,在非編輯區域保持高保真度,同時確保編輯區域與編輯指令緊密對齊,并通過修復區域ID重采樣在長視頻中保持ID一致性。
前面圖5展示了與之前視頻修復方法的定性比較。VideoPainter在保持視覺保真度和文本提示一致性方面表現出色。VideoPainter成功生成了未來飛船穿越天空的無縫動畫,在整個移除過程中保持了平滑的時間過渡和精確的背景邊界,而沒有引入ReVideo中觀察到的偽影。
人類評估
本文在VPBench修復和編輯子集的標準長度視頻樣本上進行了用戶研究,評估視頻修復和編輯任務。30名參與者基于背景保留、文本對齊和視頻質量評估了50個隨機選擇的案例。如下表4所示,VideoPainter在所有評估標準中均顯著優于現有基線,在兩項任務中均獲得了更高的偏好率。
消融分析
在下表5中對VideoPainter進行了消融實驗,包括架構、上下文編碼器大小、控制策略和修復區域ID重采樣。根據第1行和第5行,雙分支VideoPainter通過顯式解耦背景保留和前景生成,顯著優于單分支版本,從而降低了模型復雜性并避免了單分支中競爭目標之間的權衡。表5的第2至第6行展示了我們關鍵設計選擇的理論依據:
- 使用兩層結構作為上下文編碼器在性能和效率之間的最佳平衡;
- 基于分割masked信息實現標記選擇性特征融合,以防止主干網絡中不可區分的前景-背景標記引起的混淆;
- 適應不同主干的即插即用控制,性能相當。此外,第7和第8行驗證了在長視頻中使用修復區域ID重采樣的重要性,通過顯式重采樣前一剪輯的修復區域標記來保持ID一致性。
即插即用控制能力
下圖7展示了VideoPainter在基礎擴散Transformer選擇中的靈活即插即用控制能力。展示了VideoPainter如何與社區開發的Gromit風格LoRA無縫集成。盡管動漫風格數據與我們的訓練數據集之間存在顯著領域差距,VideoPainter的雙分支架構確保了其即插即用的修復能力,使用戶能夠為特定修復需求和預期結果選擇最合適的基礎模型。
討論
本文介紹了VideoPainter,這是首個具有即插即用控制能力的雙分支視頻修復框架。本文的方法具有三個關鍵創新:
- 輕量級即插即用上下文編碼器,兼容任何預訓練的視頻DiT;
- 修復區域ID重采樣技術,用于保持長視頻的ID一致性;
- 可擴展的數據集管道,生成了包含超過390K個視頻剪輯的VPData和VPBench,具備精確masked和密集描述。
VideoPainter在視頻編輯應用中也展示了潛力。大量實驗表明,VideoPainter在視頻修復和編輯的8個指標上實現了最先進的性能,特別是在視頻質量、masked區域保留和文本一致性方面。
VideoPainter仍存在一些局限性:
- 生成質量受限于基礎模型,可能在復雜物理和運動建模方面表現不佳;
- 在低質量masked或未對齊視頻描述的情況下,性能可能不理想。
本文轉自AI生成未來 ,作者:AI生成未來
