Vidu官方論文來了!媲美Sora的國產視頻生成器背后技術探秘 精華
文章鏈接:https://arxiv.org/pdf/2405.04233
開源地址:https://www.shengshu-ai.com/vidu
Vidu是中國首個長視頻生成AI大模型,由清華大學與生數科技聯手發布,前段時間就已經發布了很多效果展示,非常驚艷,這次新掛出來的一篇解讀文章,對Vidu使用的技術進行了一個介紹,在這里和大家一起學習下。
本文引入了 Vidu,一個高性能的文本到視頻生成器,能夠在單次生成中生成長達 16 秒的 1080p 視頻。Vidu 是一個擴散模型,其骨干是 U-ViT,這使其具備了處理長視頻的可擴展性和能力。Vidu 具有很強的連貫性和動態性,并且能夠生成逼真和富有想象力的視頻,以及理解一些專業攝影技術,與 Sora——最強大的報告過的文本到視頻生成器相當。最后,對其他可控視頻生成進行了初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成,展示了有希望的結果。
介紹
擴散模型在生成高質量圖像、視頻和其他類型的數據方面取得了突破性進展,超越了自回歸網絡等替代方法。以前,視頻生成模型主要依賴于具有 U-Net 骨干的擴散模型,并專注于像 4 秒這樣的單一有限時長。本文的模型,Vidu,證明了一個以 U-ViT 為骨干的文本到視頻擴散模型可以通過利用transformer的可擴展性和長序列建模能力打破這種持續時間限制。Vidu 能夠在單次生成中生成長達 16 秒的 1080p 視頻,以及單幀圖像作為視頻。
此外,Vidu 具有很強的連貫性和動態性,能夠生成逼真和富有想象力的視頻。Vidu 還初步理解了一些專業攝影技術,如過渡效果、攝像機移動、光影效果和情感表現。在某種程度上,Vidu 的生成性能與目前最強大的文本到視頻生成器 Sora 相當,遠遠優于其他文本到視頻生成器。最后,對其他可控視頻生成進行了初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成。所有這些都展示出了有希望的結果。
文本到視頻生成
Vidu 首先采用視頻自編碼器來減少視頻的空間和時間維度,以實現高效的訓練和推斷。在此之后,Vidu 使用 U-ViT 作為噪聲預測網絡來建模這些壓縮表示。具體來說,如下圖 1 所示,U-ViT 將壓縮視頻分割成 3D patch,將所有輸入(包括時間、文本條件和嘈雜的 3D patch)視為token,并在transformer的淺層和深層之間使用長跳越連接。通過利用變長序列處理的transformer的能力,Vidu 可以處理持續時間不同的視頻。
Vidu 在大量的文本-視頻對上進行訓練,但是由人類標注所有視頻是不可行的。為了解決這個問題,首先訓練了一個針對理解視頻中動態信息進行優化的高性能視頻標題生成器,然后使用這個標題生成器自動標注所有的訓練視頻。在推斷過程中,應用了重新標題技術將用戶輸入重新表述為更適合模型的形式。
生成不同長度的視頻
由于 Vidu 是在各種長度的視頻上進行訓練的,因此它可以生成長達 16 秒的所有長度的 1080p 視頻,包括單幀圖像作為視頻。在下圖2中呈現了示例。
3D一致性
Vidu 生成的視頻展現出強大的3D一致性。隨著攝像機的旋轉,視頻呈現出同一對象在不同角度的投影。例如,如下圖3所示,隨著攝像機的旋轉,生成的貓的頭發自然地被遮擋。
生成切換
Vidu 能夠生成包含切換的視頻。如下圖4所示,這些視頻通過切換攝像機角度呈現同一場景的不同視角,同時保持場景中主題的一致性。
生成過渡效果
Vidu 能夠在單次生成中生成帶有過渡效果的視頻。如下圖5所示,這些過渡效果可以以引人入勝的方式連接兩個不同的場景。
攝像機運動
攝像機運動涉及在拍攝過程中對攝像機的物理調整或移動,增強了視覺敘事,傳達了場景內不同的視角和情感。Vidu 從數據中學習了這些技術,增強了觀眾的視覺體驗。例如,如圖6所示,Vidu 能夠生成包括變焦、平移和攝影機在內的攝像機運動的視頻。
光影效果
Vidu 能夠生成帶有令人印象深刻的光影效果的視頻,這有助于增強整體氛圍。例如,如下圖7所示,生成的視頻可以喚起神秘和寧靜的氛圍。因此,除了視頻內容中的實體外,Vidu 還具有傳達一些抽象情感的初步能力。
情感刻畫
Vidu 能夠有效地描繪角色的情感。例如,如下圖8所示,Vidu 能夠表達諸如快樂、孤獨、尷尬和喜悅等情感。
想象力
除了生成現實世界的場景外,Vidu 還具有豐富的想象力。如下圖9所示,Vidu 能夠生成在現實世界中不存在的場景。
與 Sora 的比較
Sora目前是最強大的文本到視頻生成器,能夠生成高清晰度的視頻,并具有很高的一致性。然而,由于 Sora 不是公開可訪問的,通過直接將 Sora 發布的示例提示插入到 Vidu 中來進行比較。下圖10和圖11描述了 Vidu 和 Sora 之間的比較,表明在某種程度上,Vidu 的生成性能與 Sora 相當。
其他可控視頻生成
還在 512 分辨率上進行了其他可控視頻生成的幾個初步實驗,包括邊緣檢測到視頻生成、視頻預測和主體驅動生成。所有這些都展示了有希望的結果。
邊緣檢測到視頻生成
Vidu 可以通過使用類似于 ControlNet的技術來添加額外的控制,如下圖12所示。
視頻預測
如下圖13所示,Vidu 可以根據輸入圖像或幾個輸入幀(用紅色框標記)生成后續幀。
主體驅動生成
令人驚訝的是,我們發現 Vidu 可以通過僅在圖像而非視頻上進行微調來執行主體驅動的視頻生成。例如,我們使用 DreamBooth技術將學到的主題指定為特殊符號 <V> 進行微調。如下圖14所示,生成的視頻忠實地再現了學到的主題。
結論
Vidu,一個高清文本到視頻生成器,展示了在各個方面的強大能力,包括生成的視頻的持續時間、連貫性和動態性,與 Sora 相當。在未來,Vidu 仍有改進的空間。例如,細節方面偶爾會出現缺陷,視頻中不同主體之間的交互有時偏離了物理規律。相信通過進一步擴展 Vidu,這些問題可以得到有效解決。
本文轉自 AI生成未來 ,作者:Fan Bao等
