成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!

發布于 2025-3-13 10:42
瀏覽
0收藏

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

文章鏈接:https://arxiv.org/pdf/2503.05639
項目鏈接:https://yxbian23.github.io/project/video-painter/
git鏈接:https://github.com/TencentARC/VideoPainter

亮點直擊

  • 提出了VideoPainter,首個支持即插即用背景控制的雙分支視頻修復框架。
  • 設計了一個輕量級上下文編碼器,用于高效且密集的背景控制,并引入了修復區域ID重采樣技術,以在任意長度的視頻修復和編輯中保持ID一致性。
  • 推出了VPData,這是最大的視頻修復數據集,包含超過390K個片段(>866.7小時),以及VPBench,兩者均具備精確的masked和詳細的視頻描述。
  • 實驗表明,VideoPainter在視頻修復和編輯中,在包括視頻質量、masked區域保留和文本對齊等8項指標上均達到了最先進性能。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

總結速覽

解決的問題

  • 生成完全masked目標:現有方法在處理完全masked的目標時存在困難。
  • 背景保留與前景生成的平衡:現有方法難以在保留背景的同時生成前景。
  • 長視頻中的ID一致性:現有方法在長視頻中難以保持目標ID的一致性。

提出的方案

  • VideoPainter框架:提出了一種高效的雙分支框架,包含一個輕量級的上下文編碼器。
  • 上下文編碼器:該編碼器處理masked視頻并將背景指導注入到任何預訓練的視頻擴散Transformer中。
  • ID一致性策略:引入了一種重新采樣修復區域的策略,以保持長視頻中的ID一致性。
  • 數據集和基準:開發了一個可擴展的數據集管道,構建了VPData和VPBench,這是最大的視頻修復數據集和基準。

應用的技術

  • 雙分支架構:采用雙分支架構,分別處理背景保留和前景生成。
  • 輕量級上下文編碼器:僅占主干參數6%的輕量級上下文編碼器,集成到預訓練的擴散Transformer中。
  • 掩碼選擇性特征集成:明確區分masked和非masked區域的標記。
  • ID-Adapter:通過ID-Adapter增強主干的注意力采樣,確保長視頻中的ID一致性。

達到的效果

  • 高效訓練和最終結果:VideoPainter在訓練效率和最終結果上表現出色。
  • 大規模訓練和評估:構建了包含超過390K個剪輯的VPData和VPBench,支持大規模訓練和評估。
  • 下游應用潛力:展示了VideoPainter在視頻編輯等下游應用中的潛力。
  • 最先進性能:在8個關鍵指標上展示了最先進的性能,包括視頻質量、masked區域保留和文本一致性。

方法

下圖3展示了構建VPData和VPBench的流程。下圖4展示了雙分支VideoPainter。后面介紹了用于任意長度視頻修復和即插即用控制的修復區域ID重采樣方法。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

VPData和VPBench構建流程

為了解決數據集規模有限和缺乏文本標注的問題,本文提出了一個利用先進視覺模型的可擴展數據集構建流程。這最終形成了VPData和VPBench,這是最大的視頻修復數據集和基準,具備精確的masked和視頻/masked區域描述。如上圖3所示,該流程包括5個步驟:收集、標注、分割、選擇和描述

收集

選擇Videvo和Pexels作為數據源,最終從這些來源獲得了約450??個視頻。標注對于每個收集的視頻,實施了一個級聯工作流進行自動標注:

  • 使用Recognize Anything Model 進行開放集視頻標注,以識別主要目標。
  • 基于檢測到的目標標簽,利用Grounding DINO 在固定間隔檢測目標的邊界框。
  • 這些邊界框作為SAM2的提示,生成高質量的masked分割。

分割

在從不同角度跟蹤同一目標時,可能會發生場景轉換,導致視角的破壞性變化。本文使用PySceneDetect識別場景轉換,并隨后分割masked。然后我們將序列分割為10秒的間隔,并丟棄較短的片段(<6秒)。

選擇

采用3個關鍵標準:

  • 美學質量:使用Laion-Aesthetic Score Predictor進行評估。
  • 運動強度:通過RAFT的光流測量進行預測。
  • 內容安全性:通過Stable Diffusion Safety Checker進行評估。

描述

如下表1所示,現有的視頻分割數據集缺乏文本標注,這是生成任務的主要條件 ,這為將生成模型應用于視頻修復創造了數據瓶頸。因此,利用最先進的視覺語言模型(VLMs),特別是CogVLM2和GPT-4o,均勻采樣關鍵幀并生成密集的視頻描述和masked目標的詳細描述。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

雙分支修復控制

本文過一個高效的上下文編碼器將masked視頻特征整合到預訓練的擴散Transformer(DiT)中,以解耦背景上下文提取和前景生成。該編碼器處理噪聲隱空間表示、masked視頻隱空間表示和下采樣masked的拼接輸入。具體來說,噪聲隱空間表示提供了當前生成的信息。通過VAE提取的masked視頻隱空間表示與預訓練DiT的潛在分布對齊。應用三次插值對masked進行下采樣,確保masked與隱空間表示之間的維度兼容性。


基于DiT固有的生成能力,控制分支僅需提取上下文線索以指導主干網絡保留背景并生成前景。因此,與之前復制主干網絡一半或全部的重型方法不同,VideoPainter采用輕量級設計,僅克隆預訓練DiT的前兩層,僅占主干網絡參數的6%。預訓練DiT的權重為提取masked視頻特征提供了強大的先驗。上下文編碼器特征以分組和標記選擇的方式集成到凍結的DiT中。分組特征集成公式如下:


第一層的特征被添加回主干網絡的前半部分,而第二層的特征被集成到后半部分,從而實現輕量級且高效的上下文控制。標記選擇機制是一個預過濾過程,其中僅表示純背景的標記被添加回去,而其他標記被排除在集成之外,如前圖4右上角所示。這確保了只有背景上下文被融合到主干網絡中,防止主干網絡生成過程中的潛在歧義。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

目標區域ID重采樣

盡管當前的DiT在處理時間動態方面表現出潛力,但它們難以保持平滑過渡和長期身份一致性。

平滑過渡

借鑒AVID,本文采用重疊生成和加權平均來保持一致的過渡。此外,利用前一剪輯的最后一幀(重疊之前)作為當前剪輯重疊區域的第一幀,以確保視覺外觀的連續性。

身份一致性

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

即插即用控制

本文的即插即用框架在兩個方面展示了多功能性:它支持各種風格化主干或LoRA,并且兼容文本到視頻(T2V)和圖像到視頻(I2V)的DiT架構。I2V兼容性特別支持與現有圖像修復能力的無縫集成。當使用I2V DiT主干時,VideoPainter僅需一個額外步驟:使用任何圖像修復模型生成初始幀,該模型由masked區域的文本描述引導。修復后的幀隨后作為圖像條件和第一個masked視頻幀。這些能力進一步展示了VideoPainter的卓越可遷移性和多功能性。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

實驗

實現細節

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

基準測試

在視頻修復中,本文使用Davis作為隨機masked的基準,使用VPBench作為基于分割的masked基準。VPBench包含100個6秒的視頻用于標準視頻修復,以及16個平均時長超過30秒的視頻用于長視頻修復。VPBench涵蓋多樣化的內容,包括物體、人類、動物、景觀和多范圍masked。對于視頻編輯評估,也使用VPBench,其中包含四種基本編輯操作(添加、移除、替換和更改),包括45個6秒的視頻和9個平均時長為30秒的視頻。

評估指標

本文從三個方面考慮8個指標:masked區域保留、文本對齊和視頻生成質量。

  • masked區域保留:本文遵循先前的工作,使用標準PSNR、LPIPS、SSIM 、MSE 和MAE來評估生成視頻與原始視頻在未masked區域的差異。
  • 文本對齊:本文使用CLIP相似度(CLIP Sim)來評估生成視頻與其對應文本描述的語義一致性。本文還測量masked區域內的CLIP相似度(CLIP Sim (M))。
  • 視頻生成質量:遵循先前的方法,本文使用FVID來評估生成視頻的質量。

視頻修復

定量比較

下表2展示了在VPBench和Davis上的定量比較。比較了非生成方法ProPainter、生成方法COCOCO以及本文提出的強基線Cog-Inp的修復結果。Cog-Inp使用圖像修復模型修復第一幀,并通過I2V主干結合潛在混合操作傳播結果。在基于分割的VPBench中,ProPainter和COCOCO在大多數指標上表現最差,主要原因是無法修復完全masked的目標以及單主干架構難以平衡背景保留和前景生成。在隨機masked基準Davis中,ProPainter通過利用部分背景信息有所改進。然而,VideoPainter通過其雙分支架構有效解耦背景保留和前景生成,在分割(標準和長視頻)和隨機masked任務中均實現了最佳性能。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

定性比較

下圖5展示了與之前視頻修復方法的定性比較。VideoPainter在視頻一致性、質量和文本描述對齊方面始終表現出色。值得注意的是,ProPainter無法生成完全masked的目標,因為它僅依賴于背景像素傳播而非生成。COCOCO雖然展示了基本功能,但由于其單主干架構試圖平衡背景保留和前景生成,無法在修復區域保持一致的ID(如船只外觀不一致和地形突變)。Cog-Inp實現了基本的修復結果,但其混合操作無法檢測masked邊界,導致明顯的偽影。此外,VideoPainter能夠生成超過一分鐘的連貫視頻,并通過ID重采樣保持ID一致性。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

視頻編輯

VideoPainter可用于視頻編輯,通過視覺語言模型根據用戶編輯指令和源描述生成修改后的描述,并應用VideoPainter基于修改后的描述進行修復。下表3展示了在VPBench上的定量比較。我們比較了基于反演的UniEdit、基于DiT的DiTCtrl和端到端的ReVideo的編輯結果。在VPBench的標準和長視頻中,VideoPainter均表現出色,甚至超越了端到端的ReVideo。這一成功歸功于其雙分支架構,確保了出色的背景保留和前景生成能力,在非編輯區域保持高保真度,同時確保編輯區域與編輯指令緊密對齊,并通過修復區域ID重采樣在長視頻中保持ID一致性。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

前面圖5展示了與之前視頻修復方法的定性比較。VideoPainter在保持視覺保真度和文本提示一致性方面表現出色。VideoPainter成功生成了未來飛船穿越天空的無縫動畫,在整個移除過程中保持了平滑的時間過渡和精確的背景邊界,而沒有引入ReVideo中觀察到的偽影。

人類評估

本文在VPBench修復和編輯子集的標準長度視頻樣本上進行了用戶研究,評估視頻修復和編輯任務。30名參與者基于背景保留、文本對齊和視頻質量評估了50個隨機選擇的案例。如下表4所示,VideoPainter在所有評估標準中均顯著優于現有基線,在兩項任務中均獲得了更高的偏好率。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

消融分析

在下表5中對VideoPainter進行了消融實驗,包括架構、上下文編碼器大小、控制策略和修復區域ID重采樣。根據第1行和第5行,雙分支VideoPainter通過顯式解耦背景保留和前景生成,顯著優于單分支版本,從而降低了模型復雜性并避免了單分支中競爭目標之間的權衡。表5的第2至第6行展示了我們關鍵設計選擇的理論依據:

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

  1. 使用兩層結構作為上下文編碼器在性能和效率之間的最佳平衡;
  2. 基于分割masked信息實現標記選擇性特征融合,以防止主干網絡中不可區分的前景-背景標記引起的混淆;
  3. 適應不同主干的即插即用控制,性能相當。此外,第7和第8行驗證了在長視頻中使用修復區域ID重采樣的重要性,通過顯式重采樣前一剪輯的修復區域標記來保持ID一致性。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

即插即用控制能力

下圖7展示了VideoPainter在基礎擴散Transformer選擇中的靈活即插即用控制能力。展示了VideoPainter如何與社區開發的Gromit風格LoRA無縫集成。盡管動漫風格數據與我們的訓練數據集之間存在顯著領域差距,VideoPainter的雙分支架構確保了其即插即用的修復能力,使用戶能夠為特定修復需求和預期結果選擇最合適的基礎模型。

即插即用!騰訊&港中文發布影視后期黑科技!VideoPainter:視頻編輯修復8項SOTA!-AI.x社區

討論

本文介紹了VideoPainter,這是首個具有即插即用控制能力的雙分支視頻修復框架。本文的方法具有三個關鍵創新:

  1. 輕量級即插即用上下文編碼器,兼容任何預訓練的視頻DiT;
  2. 修復區域ID重采樣技術,用于保持長視頻的ID一致性;
  3. 可擴展的數據集管道,生成了包含超過390K個視頻剪輯的VPData和VPBench,具備精確masked和密集描述。


VideoPainter在視頻編輯應用中也展示了潛力。大量實驗表明,VideoPainter在視頻修復和編輯的8個指標上實現了最先進的性能,特別是在視頻質量、masked區域保留和文本一致性方面。


VideoPainter仍存在一些局限性:

  1. 生成質量受限于基礎模型,可能在復雜物理和運動建模方面表現不佳;
  2. 在低質量masked或未對齊視頻描述的情況下,性能可能不理想。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/FLa7TFlmMPJM_Ay59P50hQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 中文字幕亚洲一区二区三区 | 日一区二区三区 | 日本黄色片免费在线观看 | 99久久夜色精品国产亚洲96 | 网站国产 | 国产偷自视频区视频 | 日本不卡免费新一二三区 | 国产日韩一区二区三区 | 久久久国产精品 | 欧美一区二区三区久久精品 | 精品久久久久国产免费第一页 | 国产福利网站 | 亚洲一区二区三区在线播放 | 99在线免费观看视频 | 国产亚洲成av人在线观看导航 | a级黄色网 | 综合精品在线 | 韩国av网站在线观看 | 天天操天天操 | 中文一区二区 | 久久91| 在线观看国产 | 国产精品国产成人国产三级 | 国产精品美女久久久久aⅴ国产馆 | 午夜播放器在线观看 | 午夜精品一区二区三区在线观看 | 国产高清在线精品一区二区三区 | 国产真实精品久久二三区 | 免费观看a级毛片在线播放 黄网站免费入口 | 欧美一级在线免费观看 | 国产精品视频免费播放 | 亚洲五码在线 | 欧美激情五月 | 国产视频久久 | 狠狠色狠狠色综合系列 | 色吊丝2288sds中文字幕 | 国产一区精品在线 | 欧美aⅴ | 国产精品2 | av影音资源 | 亚洲一区二区三区久久久 |