視頻生成的測試時Scaling時刻！清華開源Video-T1，無需重新訓練讓性能飆升

作者：機器之心 2025-03-27 10:04:27

來自清華大學、騰訊的研究團隊首次對視頻生成的 Test-Time Scaling 進行探索，表明了視頻生成也能夠進行 Test-Time Scaling 以提升性能，并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。

視頻作為包含大量時空信息和語義的媒介，對于 AI 理解、模擬現實世界至關重要。視頻生成作為生成式 AI 的一個重要方向，其性能目前主要通過增大基礎模型的參數量和預訓練數據實現提升，更大的模型是更好表現的基礎，但同時也意味著更苛刻的計算資源需求。

受到 Test-Time Scaling 在 LLM 中的應用啟發，來自清華大學、騰訊的研究團隊首次對視頻生成的 Test-Time Scaling 進行探索，表明了視頻生成也能夠進行 Test-Time Scaling 以提升性能，并提出高效的 Tree-of-Frames 方法拓展這一 Scaling 范式。

目前，這項工作的代碼已經開源，感興趣的小伙伴可以開 Issue 提問，也歡迎共同探索視頻和多模態生成。

論文標題：Video-T1: Test-Time Scaling for Video Generation
論文地址：https://arxiv.org/pdf/2503.18942
Github 倉庫: https://github.com/liuff19/Video-T1
項目主頁: https://liuff19.github.io/Video-T1/

視頻生成的 Test-Time Scaling 范式

繼 DeepSeek-R1 爆紅后，在視覺 / 多模態等不同領域都涌現了大量 Test-Time Scaling (TTS) 研究，Video-T1 則是首次將 Test-Time Scaling 引入視頻生成領域，突破了傳統方式 Scaling up 視頻模型需要大量資源重新訓練或顯著擴大模型規模的局限性。

研究團隊通過增加推理階段計算來顯著提升視頻生成質量，在 VBench 上實現了最高 5.86% 的總分提升，同時發現模型能力隨著推理階段選取的樣本數目增加而增長，體現出持續 Scale Up 的特性。

視頻生成Test-Time Scaling的實驗結果

研究團隊創新性地將視頻生成中的 Test-Time Scaling 問題建模為從高斯噪聲空間到目標視頻分布的軌跡搜索問題，為優化視頻生成引入了新的理論框架。同時構造了隨機線性搜索作為 Test-Time Scaling 的基礎實現方式，即隨機地取樣多個視頻生成樣本，利用 VLM 進行評分選出最優的視頻樣本作為輸出。

隨機線性搜索的算法

Tree-of-Frames 方法提升推理效率

然而，隨機線性搜索的復雜度較高，需要較多的推理時計算，研究團隊發現，許多視頻在生成的過程中就會出現內容與提示詞不對應或者不符合現實規律等諸多問題，為了進一步提高搜索速度和視頻質量，研究團隊提出了「幀樹」（Tree-of-Frames, ToF），通過自適應擴展和修剪視頻分支，在計算成本與生成質量間實現動態平衡。

類似于在推理模型中使用 score model，研究團隊提出使用測試時驗證器（test-time verifiers）評估中間結果質量，并結合啟發式算法高效導航搜索空間，在視頻生成的適當位置進行評估，選取符合要求的生成軌跡，顯著提升生成效率和質量。

研究團隊提出的 Tree-of-Frames 算法

相比于直接進行隨機線性搜索，Tree-of-Frames 方法能夠在取得相同效果的情況下顯著提高搜索效率，降低視頻模型的推理計算需求。

研究團隊通過比較不同 Test-Time Scaling 方法和不同樣本數量對應的 Number of Function Evaluations (NFE) 及對應的表現，發現使用 Tree-of-Frames 方法能夠在相同 NFE 的情況下更為顯著地提高視頻表現。

不同模型下 Tree-of-Frames 與隨機線性搜索效果對比

研究團隊選取了三種視頻生成模型實現 Tree-of-Frames 方法，并計算其視頻模型的推理計算需求，在 VBench 總分相同的情況下進行比較，發現 Tree-of-Frames 顯著降低了視頻模型推理計算量。

Tree-of-Frames 方法相比于隨機線性搜索顯著提高了推理效率

此外，研究團隊注意到首幀對于視頻整體是否對齊影響較大，視頻的前中后部分存在一定程度不同的提示詞對齊需求，因此利用單幀的圖片生成思維鏈 (Image Generation Chain-of-Thought) 和層次化提示詞 (Hierarchical Prompting) 等方法，對幀的生成和提示詞對齊進行增強，構建了 Tree-of-Frames 總體流程。

研究團隊提出的 Tree-of-Frames 方法流程圖

在上圖所示的流程中，第一階段執行 Text-to-Image (First Frame) 生成，進行圖像級別的對齊，讓首幀能夠包含正確且足夠的關于物體、場景的語義信息；第二階段在測試時 Verifier 中應用層次化提示詞 (Hierarchical Prompting)，關注運動穩定性與物理合理性等方面，從而提供反饋，指導啟發式搜索過程；最后一階段評估視頻的整體質量，并選擇與文本提示詞最高對齊度的視頻。

不同模型的 Test-Time Scaling 實驗

研究團隊進行了大量 Test-Time Scaling 實驗，使用不同的視頻生成模型、VLM 模型進行測試，得到這些模型相比于基線在 VBench 上各方面指標的提升。

不同維度上 Test-Time Scaling 方法相比于基線的提升

實驗結果表明，無論是基于 Diffusion 的模型還是 Autoregressive 范式的模型，都能夠通過 Test-Time Scaling 方法實現生成視頻性能的全面提升，而無需重新訓練一個視頻生成模型。

研究團隊還注意到，使用不同的 VLM 作為 Verifier 對視頻生成質量在多種維度的提升效果有所不同。

因此，為了更充分地發揮 Test-Time Scaling 的潛力并為后續增強 VLM 能力的探索提供思路，研究團隊將不同的 Verifier 進行綜合，用于 Test-Time Scaling 過程，發現在相同的 NFE (Number of Function Evaluations) 下 Multiple Verifier 相比于單個 Verifier 效果更好。不同 VLM 和視頻生成模型對應的結果如下：

Multiple Verifier 與單個 Verifier Scaling Up 效果對比