SOTA級視頻編輯新方法：無需訓練一句話編輯視頻，背景保持100%

2025-06-11 09:10:00

西湖大學AGILab提出了一種全新的無需反演和訓練的視頻編輯新方法：FlowDirector。

傳統的視頻編輯工作流，正在被AI徹底重塑。

AI的視頻編輯方法總是存在一些問題：例如視頻運動不連貫、編輯后的視頻產生意外變化等……經過分析，這些問題的產生最終大都指向同一原因——反演-編輯范式。

因此，西湖大學AGILab提出了一種全新的無需反演和訓練的視頻編輯新方法：FlowDirector。

相較于其他視頻編輯方法，FlowDirector有以下方面值得關注：

編輯結果展示：

方法：針對視頻編輯中的「反演痛點」

現在的通用視頻編輯方法大多基于反演-去噪（inversion-denosiong）范式:

這種范式帶來了許多問題：反演過程中的錯誤會不斷的累計，使得得到的潛在特征并非是完美的，因此給去噪過程提供錯誤的起點，導致出現例如編輯視頻動作不連貫等結構性損失，編輯結果受到嚴重干擾。

并且在去噪過程中的條件注入帶來了額外的存儲開銷，限制了編輯產生的結果。

FlowDirector則摒棄了傳統的反演-去噪范式，通過構造從源視頻到編輯結果的直接編輯路徑，實現高質量、準確和高可控的視頻編輯效果。具體實現如下：

FlowDirector直接特征空間構建“源視頻→目標視頻”的演化路徑，但這種直接演化范式并非完美無瑕，直接編輯路徑產生的編輯流作用于全視頻特征，會導致無關區域發生意外變化，嚴重影響編輯視頻的保真度。

如圖所示，在對目標編輯對象進行編輯時，編輯影響在了無關區域(道路)。

為此，研究團隊提出了空間感知流矯正(Spatially Attentive Flow Correction，SAFC)：SAFC通過定位并限制編輯視頻中關鍵對象所在的空間區域，來防止編輯流干擾無關區域。

如圖所示，編輯左右被精確的限制在了車的周圍，干擾泄漏現象消失。

具體措施為基于注意力熱圖生成二值掩碼，僅在語義相關的區域（如要替換或修改的物體、人物）施加流演化，背景與非目標部分完全“凍結”，保證編輯后視頻的結構與紋理不受影響。

這種直接演化范式帶來的第二個問題是，由于跳過了反演過程，原始視頻的控制信號會在編輯的整個流程均顯著存在，往往會對最終效果施加過強的“控制效果”，導致修改后的視頻中依然殘留明顯的原始物體輪廓或細節偽影。

為此，作者團隊提出了差分平均引導(Differential Averaging Guidance，DAG)，同時進行“高質量采樣”和“快速基線采樣”，通過比對兩者之間的差異來提煉出真正需要的編輯優化方向。具體來說：

1.進行差分采樣得到高質速度和基線速度在每一次擴散迭代中，首先對掩碼校正后的差分速度場做多次高質量采樣，并將結果取平均得到一個精確且細節充足的速度估計；與此同時，用更少的采樣次數生成一組基線速度。

2.產生引導編輯效果增強的指導信號將每個基線速度與高質量速度相減，得到，這些差分信號準確指示了“從始視頻到目標風格”所需的增量變化方向，能夠有效抑制原始幀中殘留的強控制成分（即偽影）。

3.進行差分平均自動引導將所有差分信號求平均，然后按一定權重與高質量速度進行線性融合：

這個融合結果既保留了高質量采樣帶來的細節與語義對齊，又利用差分引導信號實現自動引導，進一步降低了原始視頻殘影的干擾。

這樣一來，系統不僅能保留足夠的語義細節、確保目標區域與文本提示高度匹配，還能有效抑制原始視頻多余信息的干擾。

最終，DAG讓FlowDirector在保證高保真度的同時，不至于陷入冗長采樣帶來的算力瓶頸，實現了“畫質優先、效率優先”的雙重升級。

FlowDirector團隊首先進行了全面的定性實驗，包含一系列定性任務，例如添加物體，刪除物體，形態差異劇烈的對象替換，對象屬性更改(如人的衣著)，紋理替換以及這些任務的組合。

結果得到，在廣泛的任務上，FlowDirector均能夠精準捕捉并反映提示中指定的關鍵風格屬性（例如顏色、材質等），優先確保文本語義與視覺效果的高度對齊。

同時，在保證目標區域發生預期變化的前提下，FlowDirector也能確保輸出視頻的整體布局穩定、無關區域一直與結構完整。

在定量結果中，FlowDirector在各種指標上均取得SOTA（在WarpSSIM上并非最高，因為FlowDirector能夠實現更大程度的語義變換，導致像素級的光流扭曲數值略低），顯著超過了已有的視頻編輯方法。

對比多種SOTA的視頻編輯方法（如FateZero、TokenFlow、VideoDirector等），FlowDirector在對象形變幅度、文本一致性、視覺細節與運動流暢度方面均表現突出，綜合主觀與客觀評測指標均居領先水平。

總體而言，FlowDirector展示了視頻編輯的新思路：無需反演的直接流編輯，并引入了空間矯正和自動引導，顯著提升了編輯視頻的質量，實現了快、準、省的三重躍升。

責任編輯：張燕妮來源：量子位