AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒

angel

發(fā)布于 2025-2-27 12:26

瀏覽

0收藏

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

論文鏈接：https://arxiv.org/pdf/2502.15894 項目鏈接：https://riflex-video.github.io/

亮點直擊

通過分析現(xiàn)有方法的失敗模式并揭示位置嵌入中各個頻率成分的作用，提供了對視頻長度外推的全面理解。
提出了RIFLEx，一種簡單而有效的解決方案，通過適當降低內(nèi)在頻率來減少重復，且無需任何額外修改。
RIFLEx提供了一種真正的“免費午餐”——在最先進的視頻擴散Transformer上以完全無需訓練的方式實現(xiàn)高質量的2倍外推。此外，通過少量微調(diào)且無需長視頻，它進一步提升了質量并實現(xiàn)了3倍外推。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

總結速覽

解決的問題

生成長視頻的挑戰(zhàn)：現(xiàn)有的視頻生成模型在生成長視頻時面臨時間一致性差的問題，容易出現(xiàn)時間重復或運動減速的現(xiàn)象。
長度外推技術的不足：現(xiàn)有的長度外推方法在應用于視頻生成時表現(xiàn)不佳，導致時間重復和運動減速。

提出的方案

RIFLEx方法：提出了一種名為RIFLEx（Reducing Intrinsic Frequency for Length Extrapolation）的方法，通過降低內(nèi)在頻率來抑制時間重復，同時保持運動一致性。
訓練自由和微調(diào)：RIFLEx在2倍外推時無需任何訓練即可實現(xiàn)高質量視頻生成，而在3倍外推時僅需少量微調(diào)。

應用的技術

頻率成分分析：通過隔離和調(diào)整位置嵌入中的頻率成分，發(fā)現(xiàn)高頻成分導致時間重復，低頻成分導致運動減速。
內(nèi)在頻率調(diào)整：識別并降低內(nèi)在頻率，確保外推后頻率保持在一個周期內(nèi)，從而抑制重復并保持運動一致性。
擴散Transformer：應用了擴散Transformer（diffusion transformers）技術，結合了擴散模型的可擴展性和Transformer的表達能力。

達到的效果

高質量視頻生成：RIFLEx在2倍外推時實現(xiàn)了高質量、自然的視頻生成，且無需額外訓練。
3倍外推：通過少量微調(diào)，RIFLEx進一步提升了樣本質量，并實現(xiàn)了3倍外推。
廣泛驗證：在多個先進的視頻擴散Transformer（如CogVideoX-5B和HunyuanVideo）上進行了廣泛實驗，驗證了RIFLEx的有效性。
空間外推：RIFLEx還可以同時應用于空間域，擴展視頻時長和空間分辨率。

方法

本文目標是全面理解并解決視頻長度外推問題。首先強調(diào)了現(xiàn)有方法的失敗模式，分析了位置嵌入中不同頻率成分的作用，并識別了一個內(nèi)在頻率。基于此，推導出了內(nèi)在頻率。作為副產(chǎn)品，本文方法不僅為現(xiàn)有方法在視頻外推中的失敗提供了理論解釋，還為圖像空間外推提供了見解。

現(xiàn)有方法的失敗模式

盡管“外推”一詞在不同領域被廣泛使用，但它在視頻生成中的作用與文本和圖像有根本不同。在視頻生成中，目標是創(chuàng)建新的、時間上連貫的內(nèi)容，并使其隨時間平滑演變。相比之下，文本外推主要是擴展上下文窗口，而圖像外推通常涉及添加高分辨率細節(jié)，而不是生成有意義的新內(nèi)容。

因此，為文本和圖像開發(fā)的外推策略在視頻長度外推中失敗，并表現(xiàn)出有趣的失敗模式，如圖2所示。為了更好地理解這些模式，還在圖像空間外推中進行了對比實驗，揭示了與視頻的相似之處。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

PE（直接擴展位置編碼超出訓練范圍）會導致時間重復，使視頻循環(huán)播放而不是自然推進（圖2a）。在圖像生成中，類似現(xiàn)象表現(xiàn)為空間重復，而不是生成新內(nèi)容。
PI（Chen et al., 2023b）將位置編碼壓縮在訓練范圍內(nèi)，導致運動變慢，通過拉伸幀時間來實現(xiàn)（圖2b）。雖然這種方法保持了結構一致性，但缺乏時間上的新穎性。在圖像生成中，這會導致細節(jié)模糊而不是新內(nèi)容（圖2e）。
如圖2c所示，NTK也會引起時間重復，無法生成有意義的運動進展。在圖像生成中，它會導致空間重復（圖2f）。雖然其他方法（Peng et al., 2023; Lu et al., 2024b; Zhuo et al., 2024）在實現(xiàn)上與NTK不同，但它們都不可避免地遭受這兩種失敗模式中的一種或兩種：要么是運動減速，要么是內(nèi)容重復。

除了揭示這些局限性外，本文的發(fā)現(xiàn)還提供了對位置嵌入如何從根本上塑造時間運動的直觀理解，這為在下一節(jié)中的頻率成分分析提供了動機。

RoPE中的頻率成分分析

首先分析了RoPE（Su et al., 2021）中各個頻率成分的作用。為了簡化，專注于時間軸并省略下標。我們通過將其他頻率成分置零來隔離特定頻率成分，并在目標模型的訓練長度上進行微調(diào)，以適應修改后的RoPE。通過這一分析，得出了兩個關鍵見解。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

給定訓練L長度，時間重復的次數(shù)可以量化為：

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

令人驚訝的是，盡管N在不同視頻中存在輕微變化，但同一模型生成的不同視頻中，這種內(nèi)在頻率保持一致。例如，CogVideoX-5B的k為2，而HunyuanVideo的k為4。

在極少數(shù)情況下，如果模型在不同視頻中表現(xiàn)出不一致的內(nèi)在頻率，建議將所有此類頻率視為內(nèi)在頻率。我們的初步實驗進一步驗證了這一假設，表明將所有低頻成分納入我們的方法中仍能保持強大的性能，詳見附錄E的討論。

降低內(nèi)在頻率：一種最小化解決方案

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

我們進一步研究了RIFLEx是否需要微調(diào)。令人驚訝的是，對于2倍外推，RIFLEx可以在無需訓練的情況下生成高質量視頻，如圖4所示。僅使用20,000個原始長度視頻和1/50,000的預訓練計算量進行微調(diào)，可以進一步增強動態(tài)質量和視覺質量。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

對于3倍外推，內(nèi)在頻率的變化過大，導致無需訓練的RIFLEx失效。然而，微調(diào)過程仍然成功，如圖4所示。

現(xiàn)有方法的理論解釋

我們的發(fā)現(xiàn)為第3.1節(jié)中觀察到的失敗模式提供了理論解釋。在PE和NTK中觀察到的重復現(xiàn)象源于它們的內(nèi)在頻率成分違反了公式(8)中的非重復條件。因此，生成的視頻內(nèi)容循環(huán)播放而不是自然推進。

PI和YaRN通過對高頻成分進行插值導致運動變慢，而這些成分對快速運動至關重要。在這些方法中，這些成分被除，因此無法生成快速運動。TASR結合了上述兩種方法，導致時間重復和運動減速的混合。更多細節(jié)和實驗請參見附錄C。

實驗

實驗設置

我們描述了數(shù)據(jù)集和評估設置，具體實現(xiàn)細節(jié)見表3（見附錄D）。

數(shù)據(jù)集：我們使用一個包含20,000個視頻的私有數(shù)據(jù)集進行微調(diào)。對于CogVideoX-5B，我們采用VBench的提示詞，以確保與之前的工作（Yang et al., 2024）一致。由于HunyuanVideo的高計算成本，我們使用100個跨多個類別的多樣化提示詞對其進行評估。

評估指標：根據(jù)之前的工作（Huang et al., 2024; Yang et al., 2024），我們使用圖像質量（Imaging Quality）、動態(tài)程度（Dynamic Degree）和主體一致性（Subject Consistency）來評估視頻生成，分別衡量視覺質量、運動幅度和時間一致性。此外，我們引入了無重復分數(shù)（NoRepeat Score），分數(shù)越高表示重復越少（詳見附錄D）。我們還進行了包含10名參與者的用戶研究，評估視覺質量、運動質量和整體偏好。運動質量反映了重復和慢動作的情況。用戶在所有外推方法中對偏好進行排名，允許并列。我們還對正常樣本和RIFLEx的結果進行了成對比較。更多細節(jié)見附錄D。

性能比較

結果：定量結果總結在表1中。我們的方法在整體性能上表現(xiàn)優(yōu)異，生成了新的時間內(nèi)容，同時不損害視頻質量的其他方面。例如，在CogVideoX-5B中，PI和YaRN因慢動作問題導致動態(tài)程度較低，而PE和NTK因重復問題導致無重復分數(shù)較低。通過有效解決這兩個挑戰(zhàn)，我們的方法顯著提升了運動質量，并在用戶研究中在所有方法中排名最高。

值得注意的是，NTK在HunyuanVideo的2倍外推中表現(xiàn)良好，但我們的分析將其歸因于意外的內(nèi)在頻率降低，恰好滿足了公式(8)中的非重復條件，而非其設計機制。這一點在NTK在CogVideo-X和HunyuanVideo的2.3倍外推中失敗時尤為明顯，反映在表1中的低無重復分數(shù)上。

定性結果如圖5所示（HunyuanVideo），CogVideoX-5B的額外對比見附錄F。圖5與定量結果一致，展示了我們的方法在有效緩解慢動作和重復問題方面的能力，從而提高了整體視頻質量。此外，僅需1/50,000預訓練計算量的最小微調(diào)程序進一步提升了動態(tài)程度、圖像質量和無重復分數(shù)。最后，借助強大的HunyuanVideo基礎模型，我們的方法實現(xiàn)了接近訓練長度的性能——56.0%和61.6%的用戶更傾向于訓練長度而非我們的方法。

下圖5. 基于HunyuanVideo的長度外推可視化結果。通過有效解決慢動作和重復問題，實現(xiàn)了更好的視頻質量。值得注意的是，雖然HunyuanVideo中的NTK在2倍外推時偶然避免了重復，但在更長的外推（如2.3倍）時仍然遇到了顯著的重復問題。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

最大外推范圍：實驗表明，RIFLEx支持最多3倍外推，超過此范圍后質量顯著下降（例如4倍外推，見下圖9）。這可能是因為過度的頻率降低削弱了RoPE的有效性，導致在訓練長度內(nèi)的編碼變化極小。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

擴展到其他外推類型：進一步探索了RIFLEx在空間外推和聯(lián)合時空外推中的應用。如圖1b和圖1c所示，調(diào)整對應維度的內(nèi)在頻率可以實現(xiàn)分辨率外推和聯(lián)合時空擴展。

AI長視頻生成終現(xiàn)"免費午餐"！RIFLEx顛覆性發(fā)現(xiàn)：調(diào)控頻率就能突破時長魔咒-AI.x社區(qū)

從129幀到261幀的2倍時間外推的更多結果

結論

通過分析RoPE中頻率成分的作用，提供了對視頻長度外推的全面理解。基于這些見解，提出了RIFLEx，這是一種簡單而有效的解決方案，通過降低內(nèi)在頻率來防止重復。RIFLEx在無需訓練的情況下，在SOTA視頻擴散Transformer上實現(xiàn)了高質量的2倍外推，并通過少量微調(diào)實現(xiàn)了3倍外推，且無需長視頻。

盡管在現(xiàn)有預訓練模型上證明了RIFLEx的有效性，但尚未探索其從頭訓練的性能，這留待未來工作。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/ABQzvmRM74pzP1bmm3J1wA??

標簽

訓練

模型

生成

贊

回復