成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架

發布于 2025-5-15 08:34
瀏覽
0收藏

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

文章鏈接:https://arxiv.org/pdf/2505.07344

亮點直擊

  • GPDiT,一個強大的自回歸視頻生成框架,利用幀級因果注意力來提升長時間跨度的時序一致性。為了進一步提高效率,提出了一種輕量級的因果注意力變體,顯著降低了訓練和推理時的計算成本。
  • 通過重新解釋擴散模型的前向過程,引入了一種基于旋轉的條件策略,提供了一種無參數的時間信息注入方法。這種輕量級設計消除了與adaLN-Zero相關的參數,同時實現了與最先進的基于DiT的方法相當的模型性能。
  • 大量實驗表明,GPDiT在視頻生成基準測試中取得了具有競爭力的性能。此外,在視頻表征任務和少樣本學習任務上的評估展示了其在視頻理解能力方面的潛力。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

視頻生成和Few-Shot學習

總結速覽

解決的問題

  • 長視頻生成的時序一致性不足:傳統擴散模型因雙向注意力機制(bidirectional attention)導致未來幀影響當前幀預測,破壞因果性,難以保證長序列視頻的運動連貫性。
  • 訓練和推理效率低:現有方法(如擴散強制,diffusion forcing)存在訓練不穩定、獨立噪聲調度等問題,影響生成質量與計算效率。
  • 離散token建模的局限性:傳統自回歸模型依賴離散 token 預測,難以自然建模連續視頻幀的動態語義。

提出的方案

  • 連續隱空間的自回歸擴散框架
  • 將擴散損失(diffusion loss)與自回歸建模結合,逐幀預測未來隱空間幀,增強運動動態和語義一致性。
  • 保留幀內全注意力(intra-frame full attention),兼顧序列連貫性與幀內表達能力。
  • 高效架構改進
  • 輕量級因果注意力機制:利用視頻時序冗余性,在訓練時剔除干凈幀間的注意力計算,降低計算成本。
  • 無參數時間條件機制:將噪聲注入過程建模為復數平面(complex plane)的旋轉,替代傳統參數化方法(如 adaLN-Zero),提升效率。

應用的技術

  • 自回歸擴散建模:融合擴散模型的隱式時序理解能力與自回歸的因果性,實現連續隱空間的視頻生成。
  • 因果注意力(Causal Attention):限制噪聲幀僅關注前驅干凈幀,避免未來信息泄露,支持長序列外推和 KV 緩存加速推理。
  • 復數平面旋轉編碼:通過數據與噪聲分量的復數旋轉表示時間步,無需額外參數即可編碼時間信息。

達到的效果

  • 生成質量提升:在長視頻合成中表現優異,運動動態和語義一致性顯著優于傳統擴散或純自回歸方法。
  • 表征能力增強:框架兼具生成與表征學習能力,在少樣本學習(few-shot learning)任務中表現突出。
  • 效率優化
  • 輕量因果注意力減少計算開銷;
  • 無參數時間條件機制簡化模型設計,提升訓練/推理速度。

生成式預訓練自回歸擴散Transformer(GPDiT)

本節提出一個結合自回歸和擴散模型的有效視頻建模框架。首先介紹兩種專為幀感知自回歸擴散設計的注意力機制變體。然后討論一種靈活的條件策略,用于處理干凈幀和噪聲幀。下圖2展示了GPDiT框架的總體結構,包括推理流程、GPDiT塊的內部架構以及擴散過程的基于旋轉的解釋。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

注意力機制

標準因果注意力

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

訓練目標是

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

標準因果注意力的一個顯著優勢是其與鍵值(KV)緩存的兼容性,在推理過程中能顯著加速生成并縮短長視頻制作所需時間。

輕量級因果注意力

盡管標準因果注意力的優勢明顯,但它存在兩個主要挑戰。首先在訓練過程中,為注意力圖計算維護噪聲序列的干凈副本會使內存和計算成本翻倍。其次在推理過程中,長序列預測時token累積導致的KV緩存膨脹會帶來極高的內存負擔。


性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

重新思考時間步條件注入

自適應歸一化層零(adaLN-Zero)已被廣泛用于將時間步和類別標簽嵌入整合到擴散模型主干中,如DiT所述。adaLN-Zero通常設計為MLP模塊,用于為每個Transformer塊提取類別標簽嵌入。然而,現代文本到圖像、文本到視頻和圖像到視頻生成任務涉及更復雜的語義嵌入。這些嵌入通常通過沿序列維度的token拼接或交叉注意力等技術注入模型,使得MLP模塊主要處理時間步嵌入。[6]的作者認為adaLN-Zero子模塊顯著增加了模型參數量,約占總增加的28%。這種可觀的開銷促使研究者尋求更高效的時間條件注入方法,旨在降低計算成本的同時保持或提升性能。


首先考慮(方差保持的)前向擴散過程,其表達式為:

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

使得前向過程可以表示為:

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

實驗

實驗設置

在三種場景下進行實驗:視頻生成、視頻表征和少樣本學習。結果表明GPDiT展現出卓越的生成與表征能力,這對構建視覺理解與生成的統一模型至關重要,同時能以極小成本遷移至下游任務且無需額外模塊。

數據集

  • 視頻生成任務
  • UCF-101包含101個動作類別的13,320段視頻,廣泛用于人體動作識別
  • MSR-VTT為開放域視頻描述設計的大規模數據集,包含20個類別的10,000個視頻片段,每個片段由Amazon Mechanical Turk工作者標注20條英文描述
  • 視頻表征評估:基于UCF-101數據集
  • 少樣本學習任務:構建多個監督微調(SFT)數據集,每個任務包含20個視頻序列(從40個任務特定圖像對中采樣三組生成),涵蓋人體檢測、圖像上色、Canny邊緣到圖像重建及兩種風格遷移應用

評估指標

  • 視頻生成
  • 從UCF-101隨機采樣10,000視頻,MSR-VTT采樣7,000視頻
  • 計算所有視頻的FVD,以及所有幀的平均FID和Inception Score
  • 視頻表征任務:報告線性探測的top-1準確率
  • 少樣本學習任務:展示各任務的視頻結果并進行定性分析

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

視頻生成

為評估GPDiT框架的泛化能力,在MSRVTT和UCF-101兩個零樣本視頻生成任務上使用GPDiT-H進行實驗。訓練數據與測試集無重疊,從而驗證模型對未見數據的泛化能力。同時,為評估擬合能力,在UCF-101上訓練GPDiT-B模型并測量其生成性能。兩個模型均基于5輸入幀生成12幀視頻序列,采用FID、FVD和IS指標評估生成結果。推理時,GPDiT-H使用1.2尺度的分類器無關引導,GPDiT-B則使用2.0尺度。

主要結果。下表2顯示GPDiT在MSRVTT上取得FID=7.4和FVD=68的競爭力表現,證明其無需接觸測試數據即可處理多樣化視頻生成任務的有效性。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

此外,GPDiT在FID和FVD指標上持續超越先前方法,凸顯其處理廣泛未見視頻數據的潛力。在UCF-101上,GPDiT同樣表現優異,IS達66.5、FID為14.8、FVD為243。值得注意的是,經過2400萬視頻數據訓練的GPDiT-H-LONG取得最佳結果(IS=66.6、FID=7.9、FVD=218),進一步展現模型的泛化能力。如下表3所示,僅8000萬參數的GPDiT-B-OF2和GPDiT-B-OF均與UCF-101分布高度對齊,分別獲得214和216的FVD分數,驗證了GPDiT在分布擬合中的有效性及其在不同規模下的穩健性。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

下圖4展示了在MovieGenBench數據集上基于13輸入幀生成并擴展至16幀的視頻可視化結果。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

視頻表征

為評估模型表征能力,采用兩種注意力機制對GPDiT-B和GPDiT-H各層特征進行線性探測實驗。GPDiT-B在UCF-101上訓練,而GPDiT-H使用閉源開放域數據集訓練,因此測量的表征能力同時涵蓋擬合性與泛化性。探測任務通過全局池化凍結GPDiT模型提取的特征,并訓練邏輯層完成UCF-101分類任務構建。每個樣本均勻選取間隔3幀的13幀,不經時間旋轉輸入主干網絡。


主要結果。下圖5a顯示GPDiT-B模型兩種注意力機制的分類準確率。值得注意的是,OF2顯著優于OF,表明干凈上下文幀間交互能提升表征性能,這與直覺一致——干凈幀交互增強了模型對內容的理解能力。我們還發現分類準確率在淺層達到峰值,先上升后緩慢下降,這與REPA的分類結果一致:增強的表征能力強化了淺層擬合。這進一步驗證GPDiT提升表征質量的能力。圖5b展示GPDiT-H-OF2在不同訓練步數和層數的分類準確率。隨著訓練推進,準確率持續提升。此外,由于GPDiT-H-OF2在UCF-101上為零樣本,準確率在2/3層達到峰值,與GPDiT-B結果不一致。圖5c顯示GPDiT-H-OF2生成指標(FVD)與分類準確率的關聯性,可見生成能力與表征能力呈明顯正相關,表明訓練過程中生成性能與理解能力同步提升。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

視頻小樣本學習

預訓練的GPDiT展現出強大表征能力,且其自回歸范式支持通過序列拼接實現條件生成,無需VACE或IP-Adapter等額外模塊即可泛化至其他任務。這促使我們探究預訓練模型在灰度轉換、深度估計、人體檢測、圖像上色、Canny邊緣到圖像重建及兩種風格遷移任務中的小樣本學習能力。預訓練GPDiT-H模型以批量大小4微調500次,優化生成基于輸入圖像和上下文演示的條件變換結果。測試時,模型使用兩對(源,目標)樣本作為動態條件輸入,為未見源圖像生成變換輸出。


主要結果。下圖6與圖7表明GPDiT經小樣本學習后可遷移至多下游任務。實驗清晰展示模型能輕松實現彩色-黑白圖像互轉。在人體檢測任務中,模型準確區分人數并識別骨骼輪廓。此外,它支持通過邊緣圖生成受控實例的可控編輯,例如圖7顯示Canny邊緣到圖像任務生成的鳥類嚴格遵循輪廓細節。還探索了流行風格遷移,如TikTok人臉轉卡通及GPT4o-吉卜力藝術風格切換(圖7)。由于僅需20樣本即可完成小樣本學習(類似GPT-2),這表明更大規模GPDiT模型可能具備類似GPT-2到GPT-3演進中出現的上下文學習(ICL)能力。

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

性能SOTA,效率更高!清北&階躍星辰重磅發布GPDiT:擴散與自回歸統一的視頻生成框架-AI.x社區

結論

本文提出統一自回歸建模與擴散模型的新視頻生成框架。方法融合輕量級注意力機制(利用時間冗余降低計算開銷)和無參數旋轉時間條件策略(高效注入時間信息),這些設計在不損失性能的前提下加速訓練與推理。大量實驗證明,該模型在視頻生成中達到SOTA性能,在視頻表征中取得競爭性結果,并在小樣本多任務場景中展現強泛化能力,凸顯其在多樣化視頻建模任務中的適應性與通用性。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/tJRKilPUD9hpTR9ZdmhLMA??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 91免费观看在线 | 激情的网站| 国产午夜精品一区二区三区嫩草 | 国产一在线观看 | 日韩免费视频一区二区 | 欧美日韩一区二区在线播放 | 超碰成人免费 | 搞黄网站在线观看 | 亚洲精品在线免费播放 | 操操操操操| 日韩精品成人 | 色成人免费网站 | 欧美中文字幕一区二区 | 在线精品国产 | 自拍偷拍中文字幕 | 中文成人在线 | 自拍偷拍亚洲欧美 | 九九国产在线观看 | 久久久久国产 | 国产精品久久7777777 | 少妇一级淫片aaaaaaaaa | 国产免费一区二区三区 | 亚洲一区二区中文字幕 | 一区二区三区四区在线免费观看 | 国产精品色| 国产精品中文字幕在线 | 91久久北条麻妃一区二区三区 | 91精品国产综合久久久久久丝袜 | 99久久久久久久久 | 日本激情视频网 | 色综合一区二区 | 亚洲欧美日韩国产 | 中文字幕免费中文 | 亚洲一区二区三区福利 | 午夜资源 | 91精品国产综合久久久久久蜜臀 | 日韩成人免费中文字幕 | 四虎精品在线 | 久久精品久久久久久 | 国产视频久久 | 成人av网站在线观看 |