人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會

Crystalcxt

發布于 2024-5-6 09:32

瀏覽

0收藏

一支人大系大模型團隊，前后與OpenAI進行了三次大撞車！

第一次是與Clip，第二次是與GPT-4V，最新一次撞在了Sora上：

去年5月，他們聯合并聯合伯克利、港大等單位于在arXiv上發表了關于VDT的論文。

那時候，該團隊就在在技術架構上提出并采用了Diffusion Transformer。并且，VDT還在模型中引入統一的時空掩碼建模。

這個團隊，正由中國人民大學高瓴人工智能學院教授盧志武帶隊。

Sora問世已經兩個多月，現在這支國產團隊在視頻生成領域的進度怎么樣了？什么時候我們能迎來國產Sora的驚艷時刻？

在本次中國AIGC產業峰會上，盧志武對上述問題進行了毫無保留的分享。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

為了完整體現盧志武的思考，在不改變原意的基礎上，量子位對演講內容進行了編輯整理，希望能給你帶來更多啟發。

中國AIGC產業峰會是由量子位主辦的行業峰會，20位產業代表與會討論。線下參會觀眾近千人，線上直播觀眾300萬，獲得了主流媒體的廣泛關注與報道。

話題要點

VDT使用Transformer作為基礎模型，能更好地捕捉長期或不規則的時間依賴性；
Scaling Law是視頻生成模型從基于Diffusion model轉向基于Transformer的重要原因；
VDT采用時空分離的注意力機制，而Sora采用時空合一的注意力機制；
VDT采用token concat方式，實現快速收斂和良好效果；
消融實驗發現，模型效果與訓練消耗的計算資源正相關，計算資源越多，效果越好；
只要拿到更多算力，超過Sora也不是那么難的事。

……

以下為盧志武演講全文：

為什么做視頻生成突然要轉到用Transformer上？

今天的報告，我將重點介紹我們在視頻生成領域的工作，特別是VDT（Video Diffusion Transformer）。

這項工作已于去年5月發布在arXiv上，并已被機器學習頂級會議ICLR接收。接下來，我將介紹我們在這一領域取得的進展。

眾所周知，Sora非常出色，那么它的優勢在哪里呢？之前，所有的工作都是基于Diffusion Model，那為什么我們在視頻生成中突然轉向使用Transformer呢？

從Diffusion到Transformer的轉變，原因如下：

與基于U-net的Diffusion模型不同，Transformer具有許多優點，如token化處理和注意力機制，這兩個特點使其能夠更好地捕捉長期或不規則的時間依賴性。因此，在視頻領域，許多工作開始采用Transformer作為基礎模型。

然而，這些都是表面現象，最根本的原因是什么呢？使用Transformer進行視頻生成，是因為其背后的scaling law發揮了作用。

Diffusion Model的模型參數量是有限的，而一旦將Transformer作為基礎模型，參數量可以隨意增加，只要有足夠的計算能力，就可以訓練出更好的模型。實驗證明，只要增加計算量，效果就會得到提升。

當然，視頻生成涉及各種任務，使用Transformer能夠將這些任務統一在一個架構下。

基于上面三個原因探索用Transformer當視頻生成的底座，這是我們當時的考慮。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

我們的創新點有兩個：

一是將Transformer應用于視頻生成，并結合了Diffusion的優點；二是在建模過程中，我們考慮了統一的時空掩碼建模，將時間和空間置于同等重要的位置。

無論是VDT還是Sora，第一步都是對視頻進行壓縮和token化處理。

這與基于DM的方法最大的區別在于，基于DM的方法只能進行空間壓縮，無法進行時間壓縮；而現在，我們可以同時考慮時間和空間，實現更高的壓縮程度。

具體來說，我們需要訓練一個時空空間中的3D量化重構器，這可以作為tokenizer，得到三維空間中的patches。

總之，通過這種方式，我們可以得到Transformer的輸入，輸入實際上是3D的tokens。

一旦我們將輸入的視頻進行token化處理，就可以像通常的Transformer一樣，使用標準的Transformer架構對3D的token序列進行建模，細節我就不贅述了。

VDT和Sora有什么差別？

VDT模型中最重要的部分是時空的Transformer Block。

我們與Sora有一點不同，當時設計這個Block時，我們將時空的Attention分開了。高校團隊沒有OpenAI那么多的計算資源，這樣分開后，所需的計算資源會少很多——除此之外，其他所有設計都一模一樣。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

現在，讓我們來看看我們與Sora的區別。

剛才我說過，VDT采用了時空分離的注意力機制，空間和時間是分開的，這是在計算資源有限的情況下的折中方案。

Sora采用的是時空統一的token化，注意力機制也是時空合一的，我們推測Sora強大的物理世界模擬能力主要來自于這個設計。

至于輸入條件不同，這不是VDT與Sora最大的區別，基本上圖生視頻能做好，文生視頻也能做好。

文生視頻的難度較大，但并非無法克服，沒有本質上的差別。

接下來，我將介紹我們當時探索的一些事項。架構設計完成后，我們特別關注輸入條件。這里有C代表的Condition Frame，以及F代表的Noisy Frame。

這兩種輸入條件應該如何結合，我們探索了三種方式：

通過Normalization的方式；
通過token concat的方式；
通過Cross attention。

我們發現，這三種方式中，token concat的效果最佳，不僅收斂速度最快，而且效果最好，因此VDT采用了token concat方式。

我們還特別關注了通用時空掩碼機制。

不過，由于Sora沒有公布細節，我們不清楚它是否也采用了這個機制，但在模型訓練過程中，我們特別強調了設計這樣的掩碼機制，最終發現效果非常好，各種生成任務都能順利完成——我們發現Sora也能達到類似的效果。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

消融實驗特別有趣，無論是Sora還是VDT，有一個非常重要的問題，就是模型中有大量的超參數，這些超參數與模型密切相關，不同的參數會對模型的效果產生很大影響。

然而，通過大量實驗驗證，我們發現超參數的選擇有一個規律，即如果超參數使得模型的訓練計算量增加，那么對模型效果是有益的。

這意味著什么？我們模型的性能只與其背后引入的計算量有關，模型訓練所需的計算資源越多，最終的生成效果就越好，就這么簡單。

這個發現與DiT類似，DiT被稱為Sora的基礎模型，它是用于圖片生成的。

總之，消融實驗是Sora或我們工作中最重要的事情之一，我們模型的效果只與訓練消耗的計算資源有關，消耗的計算資源越大，效果越好。

有更多算力，超過Sora不是太難

考慮到我們的計算資源確實有限，我們團隊在模型訓練規模上，肯定不能與OpenAI相比。但是，我們也進行了一些深入的思考。

物理世界模擬本身就在我們的論文中，并不是說這是OpenAI首先想到的，我們一年前就想到了。

當時有這個底座以后，很自然想到這樣模型到底能不能進行物理規律模擬。后來在物理數據集上訓練了一下VDT，發現它對簡單的物理規律模擬得特別好。

比如，這些例子有拋物線的運動，加速運動，還有碰撞的運動，模擬得都還可以。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

所以我們當時做了兩個在思想上特別有前瞻性的事情，一個是當時我們想到Diffusion Transformer用到視頻生成里面，第二個是我們得到了這樣模型以后，我們當時覺得這就是做物理世界模擬很好的模型，我們做實驗驗證了這個事情。

當然，如果我們有更多的算力，我們有更多的數據，我相信肯定可以模擬更復雜的物理規律。

我們這個模型也跟現在有模型做了對比，比如人像生成，給一張寫真的照片讓它動起來，我們只考慮做這個小的事情，因為我們算力特別有限。

這些結果表明VDT比Stable Video Diffusion要好一些，你可以看看生成得人物眼睛眨的更明顯一些，更自然一點。另一個模型生成有點不太自然。

此外，如果人臉從側面轉成正臉，甚至用扇子把臉遮住了，要把人臉預測出來，還是挺難的。

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會-AI.x社區

關于這個寫真視頻是怎么做的我簡單說一下。

先提供幾張寫真的照片，VDT把每一張寫真照片變成兩秒的鏡頭，通過剪輯的方式把鏡頭拼在一起。

結合我們團隊本身的特點，如果說我做通用的模型，我肯定做不過市面上的大部分，但是我當時挑了一個應用點，在這個點上VDT并不比Sora差。

Sora出來以后很多人要做視頻生成，我要考慮怎么保證我的團隊在這個方向上，哪怕很小的一個點保持世界最前沿。

因此，我們做了寫真視頻生成，國外的Pika、Sora也研究了一下。VDT生成的超寫實人物，是超過Pika和Sora的。在通用的視頻生成我們很難超過Sora，這里的主要原因是我們算力很有限。

只要拿到更多算力，超過Sora也不是那么難的事。

我就講這么多，謝謝大家。

本文轉自量子位，作者：量子位

原文鏈接:??https://mp.weixin.qq.com/s/hIofDHgs51BXNpQzIYgiYQ??

標簽

Sora

算力

贊

回復

舉報

回復

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

51CTO

51CTO博客

51CTO學堂

人大盧志武：只要拿到更多算力，超過Sora也不是那么難的事｜中國AIGC產業峰會

話題要點

為什么做視頻生成突然要轉到用Transformer上？

VDT和Sora有什么差別？

有更多算力，超過Sora不是太難

目錄