即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!

發布于 2025-3-13 10:42

瀏覽

0收藏

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

文章鏈接：https://arxiv.org/pdf/2503.05639
項目鏈接：https://yxbian23.github.io/project/video-painter/
git鏈接：https://github.com/TencentARC/VideoPainter

亮點直擊

提出了VideoPainter，首個支持即插即用背景控制的雙分支視頻修復框架。
設計了一個輕量級上下文編碼器，用于高效且密集的背景控制，并引入了修復區域ID重采樣技術，以在任意長度的視頻修復和編輯中保持ID一致性。
推出了VPData，這是最大的視頻修復數據集，包含超過390K個片段（>866.7小時），以及VPBench，兩者均具備精確的masked和詳細的視頻描述。
實驗表明，VideoPainter在視頻修復和編輯中，在包括視頻質量、masked區域保留和文本對齊等8項指標上均達到了最先進性能。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

總結速覽

解決的問題

生成完全masked目標：現有方法在處理完全masked的目標時存在困難。
背景保留與前景生成的平衡：現有方法難以在保留背景的同時生成前景。
長視頻中的ID一致性：現有方法在長視頻中難以保持目標ID的一致性。

提出的方案

VideoPainter框架：提出了一種高效的雙分支框架，包含一個輕量級的上下文編碼器。
上下文編碼器：該編碼器處理masked視頻并將背景指導注入到任何預訓練的視頻擴散Transformer中。
ID一致性策略：引入了一種重新采樣修復區域的策略，以保持長視頻中的ID一致性。
數據集和基準：開發了一個可擴展的數據集管道，構建了VPData和VPBench，這是最大的視頻修復數據集和基準。

應用的技術

雙分支架構：采用雙分支架構，分別處理背景保留和前景生成。
輕量級上下文編碼器：僅占主干參數6%的輕量級上下文編碼器，集成到預訓練的擴散Transformer中。
掩碼選擇性特征集成：明確區分masked和非masked區域的標記。
ID-Adapter：通過ID-Adapter增強主干的注意力采樣，確保長視頻中的ID一致性。

達到的效果

高效訓練和最終結果：VideoPainter在訓練效率和最終結果上表現出色。
大規模訓練和評估：構建了包含超過390K個剪輯的VPData和VPBench，支持大規模訓練和評估。
下游應用潛力：展示了VideoPainter在視頻編輯等下游應用中的潛力。
最先進性能：在8個關鍵指標上展示了最先進的性能，包括視頻質量、masked區域保留和文本一致性。

方法

下圖3展示了構建VPData和VPBench的流程。下圖4展示了雙分支VideoPainter。后面介紹了用于任意長度視頻修復和即插即用控制的修復區域ID重采樣方法。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

VPData和VPBench構建流程

為了解決數據集規模有限和缺乏文本標注的問題，本文提出了一個利用先進視覺模型的可擴展數據集構建流程。這最終形成了VPData和VPBench，這是最大的視頻修復數據集和基準，具備精確的masked和視頻/masked區域描述。如上圖3所示，該流程包括5個步驟：收集、標注、分割、選擇和描述。

收集

選擇Videvo和Pexels作為數據源，最終從這些來源獲得了約450??個視頻。標注對于每個收集的視頻，實施了一個級聯工作流進行自動標注：

使用Recognize Anything Model 進行開放集視頻標注，以識別主要目標。
基于檢測到的目標標簽，利用Grounding DINO 在固定間隔檢測目標的邊界框。
這些邊界框作為SAM2的提示，生成高質量的masked分割。

分割

在從不同角度跟蹤同一目標時，可能會發生場景轉換，導致視角的破壞性變化。本文使用PySceneDetect識別場景轉換，并隨后分割masked。然后我們將序列分割為10秒的間隔，并丟棄較短的片段（<6秒）。

選擇

采用3個關鍵標準：

美學質量：使用Laion-Aesthetic Score Predictor進行評估。
運動強度：通過RAFT的光流測量進行預測。
內容安全性：通過Stable Diffusion Safety Checker進行評估。

描述

如下表1所示，現有的視頻分割數據集缺乏文本標注，這是生成任務的主要條件，這為將生成模型應用于視頻修復創造了數據瓶頸。因此，利用最先進的視覺語言模型（VLMs），特別是CogVLM2和GPT-4o，均勻采樣關鍵幀并生成密集的視頻描述和masked目標的詳細描述。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

雙分支修復控制

本文過一個高效的上下文編碼器將masked視頻特征整合到預訓練的擴散Transformer（DiT）中，以解耦背景上下文提取和前景生成。該編碼器處理噪聲隱空間表示、masked視頻隱空間表示和下采樣masked的拼接輸入。具體來說，噪聲隱空間表示提供了當前生成的信息。通過VAE提取的masked視頻隱空間表示與預訓練DiT的潛在分布對齊。應用三次插值對masked進行下采樣，確保masked與隱空間表示之間的維度兼容性。

基于DiT固有的生成能力，控制分支僅需提取上下文線索以指導主干網絡保留背景并生成前景。因此，與之前復制主干網絡一半或全部的重型方法不同，VideoPainter采用輕量級設計，僅克隆預訓練DiT的前兩層，僅占主干網絡參數的6%。預訓練DiT的權重為提取masked視頻特征提供了強大的先驗。上下文編碼器特征以分組和標記選擇的方式集成到凍結的DiT中。分組特征集成公式如下：

第一層的特征被添加回主干網絡的前半部分，而第二層的特征被集成到后半部分，從而實現輕量級且高效的上下文控制。標記選擇機制是一個預過濾過程，其中僅表示純背景的標記被添加回去，而其他標記被排除在集成之外，如前圖4右上角所示。這確保了只有背景上下文被融合到主干網絡中，防止主干網絡生成過程中的潛在歧義。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

目標區域ID重采樣

盡管當前的DiT在處理時間動態方面表現出潛力，但它們難以保持平滑過渡和長期身份一致性。

平滑過渡

借鑒AVID，本文采用重疊生成和加權平均來保持一致的過渡。此外，利用前一剪輯的最后一幀（重疊之前）作為當前剪輯重疊區域的第一幀，以確保視覺外觀的連續性。

身份一致性

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

即插即用控制

本文的即插即用框架在兩個方面展示了多功能性：它支持各種風格化主干或LoRA，并且兼容文本到視頻（T2V）和圖像到視頻（I2V）的DiT架構。I2V兼容性特別支持與現有圖像修復能力的無縫集成。當使用I2V DiT主干時，VideoPainter僅需一個額外步驟：使用任何圖像修復模型生成初始幀，該模型由masked區域的文本描述引導。修復后的幀隨后作為圖像條件和第一個masked視頻幀。這些能力進一步展示了VideoPainter的卓越可遷移性和多功能性。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

實驗

實現細節

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

基準測試

在視頻修復中，本文使用Davis作為隨機masked的基準，使用VPBench作為基于分割的masked基準。VPBench包含100個6秒的視頻用于標準視頻修復，以及16個平均時長超過30秒的視頻用于長視頻修復。VPBench涵蓋多樣化的內容，包括物體、人類、動物、景觀和多范圍masked。對于視頻編輯評估，也使用VPBench，其中包含四種基本編輯操作（添加、移除、替換和更改），包括45個6秒的視頻和9個平均時長為30秒的視頻。

評估指標

本文從三個方面考慮8個指標：masked區域保留、文本對齊和視頻生成質量。

masked區域保留：本文遵循先前的工作，使用標準PSNR、LPIPS、SSIM 、MSE 和MAE來評估生成視頻與原始視頻在未masked區域的差異。
文本對齊：本文使用CLIP相似度（CLIP Sim）來評估生成視頻與其對應文本描述的語義一致性。本文還測量masked區域內的CLIP相似度（CLIP Sim (M)）。
視頻生成質量：遵循先前的方法，本文使用FVID來評估生成視頻的質量。

視頻修復

定量比較

下表2展示了在VPBench和Davis上的定量比較。比較了非生成方法ProPainter、生成方法COCOCO以及本文提出的強基線Cog-Inp的修復結果。Cog-Inp使用圖像修復模型修復第一幀，并通過I2V主干結合潛在混合操作傳播結果。在基于分割的VPBench中，ProPainter和COCOCO在大多數指標上表現最差，主要原因是無法修復完全masked的目標以及單主干架構難以平衡背景保留和前景生成。在隨機masked基準Davis中，ProPainter通過利用部分背景信息有所改進。然而，VideoPainter通過其雙分支架構有效解耦背景保留和前景生成，在分割（標準和長視頻）和隨機masked任務中均實現了最佳性能。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

定性比較

下圖5展示了與之前視頻修復方法的定性比較。VideoPainter在視頻一致性、質量和文本描述對齊方面始終表現出色。值得注意的是，ProPainter無法生成完全masked的目標，因為它僅依賴于背景像素傳播而非生成。COCOCO雖然展示了基本功能，但由于其單主干架構試圖平衡背景保留和前景生成，無法在修復區域保持一致的ID（如船只外觀不一致和地形突變）。Cog-Inp實現了基本的修復結果，但其混合操作無法檢測masked邊界，導致明顯的偽影。此外，VideoPainter能夠生成超過一分鐘的連貫視頻，并通過ID重采樣保持ID一致性。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

視頻編輯

VideoPainter可用于視頻編輯，通過視覺語言模型根據用戶編輯指令和源描述生成修改后的描述，并應用VideoPainter基于修改后的描述進行修復。下表3展示了在VPBench上的定量比較。我們比較了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的編輯結果。在VPBench的標準和長視頻中，VideoPainter均表現出色，甚至超越了端到端的ReVideo。這一成功歸功于其雙分支架構，確保了出色的背景保留和前景生成能力，在非編輯區域保持高保真度，同時確保編輯區域與編輯指令緊密對齊，并通過修復區域ID重采樣在長視頻中保持ID一致性。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

前面圖5展示了與之前視頻修復方法的定性比較。VideoPainter在保持視覺保真度和文本提示一致性方面表現出色。VideoPainter成功生成了未來飛船穿越天空的無縫動畫，在整個移除過程中保持了平滑的時間過渡和精確的背景邊界，而沒有引入ReVideo中觀察到的偽影。

人類評估

本文在VPBench修復和編輯子集的標準長度視頻樣本上進行了用戶研究，評估視頻修復和編輯任務。30名參與者基于背景保留、文本對齊和視頻質量評估了50個隨機選擇的案例。如下表4所示，VideoPainter在所有評估標準中均顯著優于現有基線，在兩項任務中均獲得了更高的偏好率。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

消融分析

在下表5中對VideoPainter進行了消融實驗，包括架構、上下文編碼器大小、控制策略和修復區域ID重采樣。根據第1行和第5行，雙分支VideoPainter通過顯式解耦背景保留和前景生成，顯著優于單分支版本，從而降低了模型復雜性并避免了單分支中競爭目標之間的權衡。表5的第2至第6行展示了我們關鍵設計選擇的理論依據：

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

使用兩層結構作為上下文編碼器在性能和效率之間的最佳平衡；
基于分割masked信息實現標記選擇性特征融合，以防止主干網絡中不可區分的前景-背景標記引起的混淆；
適應不同主干的即插即用控制，性能相當。此外，第7和第8行驗證了在長視頻中使用修復區域ID重采樣的重要性，通過顯式重采樣前一剪輯的修復區域標記來保持ID一致性。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

即插即用控制能力

下圖7展示了VideoPainter在基礎擴散Transformer選擇中的靈活即插即用控制能力。展示了VideoPainter如何與社區開發的Gromit風格LoRA無縫集成。盡管動漫風格數據與我們的訓練數據集之間存在顯著領域差距，VideoPainter的雙分支架構確保了其即插即用的修復能力，使用戶能夠為特定修復需求和預期結果選擇最合適的基礎模型。

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!-AI.x社區

討論

本文介紹了VideoPainter，這是首個具有即插即用控制能力的雙分支視頻修復框架。本文的方法具有三個關鍵創新：

輕量級即插即用上下文編碼器，兼容任何預訓練的視頻DiT；
修復區域ID重采樣技術，用于保持長視頻的ID一致性；
可擴展的數據集管道，生成了包含超過390K個視頻剪輯的VPData和VPBench，具備精確masked和密集描述。

VideoPainter在視頻編輯應用中也展示了潛力。大量實驗表明，VideoPainter在視頻修復和編輯的8個指標上實現了最先進的性能，特別是在視頻質量、masked區域保留和文本一致性方面。

VideoPainter仍存在一些局限性：

生成質量受限于基礎模型，可能在復雜物理和運動建模方面表現不佳；
在低質量masked或未對齊視頻描述的情況下，性能可能不理想。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/FLa7TFlmMPJM_Ay59P50hQ??

標簽

模型

生成

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

即插即用！騰訊&港中文發布影視后期黑科技！VideoPainter：視頻編輯修復8項SOTA!

總結速覽

解決的問題

提出的方案

應用的技術

達到的效果

方法

VPData和VPBench構建流程

雙分支修復控制

目標區域ID重采樣

即插即用控制

實驗

實現細節

視頻修復

視頻編輯

人類評估

消融分析

即插即用控制能力

討論

目錄