史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍精華

發布于 2024-6-28 10:50

瀏覽

0收藏

實時 AI 視頻生成來了！

本周三，新加坡國立大學尤洋團隊提出了業內第一種可以實時輸出的，基于 DiT 的視頻生成方法。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

該技術名為 Pyramid Attention Broadcast （PAB）。通過減少冗余注意力計算，PAB 實現了高達 21.6 FPS 的幀率和 10.6 倍的加速，同時不會犧牲包括 Open-Sora、Open-Sora-Plan 和 Latte 在內的流行基于 DiT 的視頻生成模型的質量。值得注意的是，作為一種不需要訓練的方法，PAB 可以為任何未來基于 DiT 的視頻生成模型提供加速，讓其具備實時生成的能力。

自今年起，OpenAI 的 Sora 和其他基于 DiT 的視頻生成模型引起了 AI 領域的又一波浪潮。然而與圖像生成相比，人們對于視頻生成的關注點基本都在于質量，很少有研究專注于探索如何加速 DiT 模型推理。加速視頻生成模型的推理對于生成式 AI 應用來說已經是當務之急。

PAB 方法的出現，為我們打開了一條路。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

原始方法與 PAB 視頻生成速度的比較。作者在 Open-Sora 上測試了 5 個 4s（192 幀）480p 分辨率的視頻。

GitHub 鏈接：https://github.com/NUS-HPC-AI-Lab/OpenDiT?tab=readme-ov-file#pyramid-attention-broadcast-pab-blogdoc

金字塔式注意力廣播

近期，Sora 和其他基于 DiT 的視頻生成模型引起了廣泛關注。然而，與圖像生成相比，很少有研究專注于加速基于 DiT 的視頻生成模型的推理。此外，生成單個視頻的推理成本可能很高。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

圖 1：當前擴散步驟和先前擴散步驟之間的注意力輸出差異，使用均方誤差 (MSE) 對差異進行量化。

實現

這項研究揭示了視頻擴散 transformer 中注意力機制的兩個關鍵觀察結果：

首先，不同時間步驟的注意力差異呈現出 U 形模式，在最初和最后 15% 的步驟中發生顯著變化，而中間 70% 的步驟則非常穩定，差異很小。

其次，在穩定的中間段內，注意力類型之間存在差異：空間注意力變化最大，涉及邊緣、紋理等高頻元素；時間注意力表現出與視頻中的運動和動態相關的中頻變化；跨模態注意力是最穩定的，將文本與視頻內容聯系起來，類似于反映文本語義的低頻信號。

基于此，研究團隊提出金字塔式注意力廣播來減少不必要的注意力計算。在中間部分，注意力表現出微小的差異，該研究將一個擴散步驟的注意力輸出廣播到幾個后續步驟，從而顯著降低計算成本。

此外，為了更有效的計算和最小的質量損失，作者根據不同注意力的穩定性和差異性設置了不同的廣播范圍。即使沒有后期訓練，這種簡單而有效的策略也能實現高達 35% 的加速，同時生成內容的質量損失可以忽略不計。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

圖 2：該研究提出了金字塔式注意力廣播，其中根據注意力差異為三個注意力設置不同的廣播范圍。注意力變化越小，廣播范圍越廣。在運行時，該方法將注意力結果廣播到接下來的幾個步驟，以避免冗余的注意力計算。x_t 指的是時間步 t 的特征。

并行

下圖 3 為本文方法與原始動態序列并行（Dynamic Sequence Paralle, DSP）之間的比較。當時間注意力得到傳播時，則可以避免所有通信。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

為了進一步提升視頻生成速度，本文基于 DSP 來改進序列并行。序列并行將視頻分割為跨多個 GPU 的不同部分，從而減少了每個 GPU 的工作負載并降低了生成延遲。不過，DSP 引入了大量的通信開銷，需要為時間注意力準備兩個 All to All 通信。

通過在 PAB 中傳播時間注意力，本文不再需要對時間注意力進行計算，由此減少了通信。相應地，通信開銷大幅降低了 50% 以上，使得實時視頻生成可以進行更高效的分布式推理。

評估結果

加速

下圖為不同模型在 8 塊英偉達 H100 GPU 上生成單個視頻時，測量得到的 PAB 總延遲。當使用單塊 GPU 時，作者實現了 1.26 至 1.32 倍的加速，并在不同的調度器中保持穩定。

當擴展到多塊 GPU 時，本文方法實現了 10.6 倍的加速，并得益于高效的序列并行改進實現了與 GPU 數量之間的近線性擴展。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

定性結果

以下三個視頻分別為 Open-Sora、Open-Sora-Plan 和 Latte 三個不同的模型使用原始方法與本文方法的效果對比。可以看到，本文方法在不同的 GPU 數量下均實現了不同程度的 FPS 加速。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

定量結果

下表為 Open-Sora、Open-Sora-Plan 和 Latte 三個模型的 LPIPS（學習感知圖像塊相似度）和 SSIM（結構相似度）指標結果。

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍-AI.x社區

更多技術細節和評估結果可以查看即將推出的論文。

項目地址：https://oahzxl.github.io/PAB/

本文轉自機器之心，作者：機器之心

原文鏈接:??https://mp.weixin.qq.com/s/tidE-qSM3nZ8kUfjNcpMZA??

標簽

視頻生成

贊

回復

舉報

回復

相關推薦

國內首個中文原生DiT架構SOTA大模型全面開源！———Hunyuan-DiT技術報告詳解

angel ? 5507瀏覽 ? 0回復
阿里巴巴AI研究團隊打破視頻生成技術壁壘，EasyAnimate實現高質量長視頻生成

Syrupup ? 4232瀏覽 ? 0回復
10倍速度突破質量瓶頸，效果超越Gen-2和Pika！T2V-Turbo：新一代視頻生成模型

angel ? 3540瀏覽 ? 0回復
AI首次實時生成視頻！尤洋團隊新作，網友：這是新紀元

angel ? 3061瀏覽 ? 0回復
長視頻生成速度提升100倍！新加坡國立提出Video-Infinity：分布式長視頻生成

angel ? 3297瀏覽 ? 0回復
阿里Tora: 首個軌跡引導的DiT創新實現精確運動控制視頻生成

angel ? 3370瀏覽 ? 0回復
視頻生成控制提升幾十倍，新一代輕量級ControlNeXt火了，賈佳亞團隊正挑戰Scaling Law

輕薄滴假象 ? 2533瀏覽 ? 0回復
手寫Sora中的Diffusion Transformer(DiT)——探索最先進視頻生成器背后的秘密

angel ? 2781瀏覽 ? 0回復
史上首個AI+人類大合唱，ChatGPT語音模式玩出新高度！

Aceryt ? 4052瀏覽 ? 0回復
Meta Movie Gen：新的 SOTA 視頻生成模型-技術報告解讀

amei2000go ? 4229瀏覽 ? 0回復
阿里商業級視頻生成框架——軌跡控制版視頻生成 Tora 重磅開源！

angel ? 2727瀏覽 ? 0回復
生成速度提升50倍，Scaling Law 再創奇跡：兩步采樣就出圖，實時視頻時代或將開啟！

51CTO技術棧 ? 2174瀏覽 ? 0回復
16幀1024×1024視頻耗時僅16秒！64倍壓縮助力高效視頻生成：復旦&微軟發布Reducio-DiT

angel ? 3436瀏覽 ? 0回復
史上最貴！首個AI Agent程序員商業化，比ChatGPT Pro貴2倍

Aceryt ? 2444瀏覽 ? 0回復
多提示視頻生成最新SOTA！港中文&騰訊等發布DiTCtrl：基于MM-DiT架構

angel ? 3090瀏覽 ? 0回復
Model2Vec：RAG 加速新引擎，模型瘦身15倍，速度提升500倍，最新emb benchmark

鴻煊的學習筆記 ? 2845瀏覽 ? 0回復
硬件級STA革新視頻DiT注意力，讓HunyuanVideo效率提升3.5倍!

angel ? 2108瀏覽 ? 0回復
使用Unsloth微調與運行Gemma 3，速度提升1.6倍，VRAM使用減少60%

sbf_2000 ? 3266瀏覽 ? 0回復
長視頻生成新突破！FAR模型+FlexRoPE讓16倍時長創作更高效

AIPaperDaily ? 1544瀏覽 ? 0回復

輕薄滴假象

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍精華

目錄

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍 精華

目錄

史上首個實時AI視頻生成技術：DiT通用，速度提升10.6倍精華