成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

每秒生成超30幀視頻,支持實時交互!自回歸視頻生成新框架刷新生成效率

人工智能 新聞
最近,來自微軟研究院的團隊與北大聯合發布新框架——Next-Frame Diffusion (NFD)。

在A100上用310M模型,實現每秒超30幀自回歸視頻生成,同時畫面還保持高質量!

視頻生成現在都快這個程度了?

圖片

最近,來自微軟研究院的團隊與北大聯合發布新框架——Next-Frame Diffusion (NFD)。

通過實現幀內并行采樣,幀間自回歸的方式,NFD讓視頻生成在保持較高生成質量的同時,生成效率大幅提升。

或許不久之后的游戲,就是玩家直接跟模型交互打游戲了,無需通過傳統的游戲引擎。

比如在《我的世界》中,下面每個視頻在NVIDIA A100 GPU上生成只需約0.48秒。

玩家在黑暗的走廊中不斷前進:

圖片

玩家在攻擊小動物后轉動視角:

圖片

玩家跳躍后放置木塊:

圖片

玩家跳上草地:

圖片

玩家不停地放置石塊:

圖片

值得一提的是,前段時間在X上火了的一款基于Minecraft的交互式自回歸世界模型——MineWorld,也是這個微軟研究院的團隊做的。

它能夠以每秒4-7幀的速度和模型進行交互。

圖片

如今,NFD讓生成速度又快了幾倍。

圖片

那么具體是如何做到的?

NFD長啥樣?

當前多數的自回歸視頻生成模型如VideoPoet采用類似于Language Model的方式,將視頻編碼成離散視頻Token,并逐個生成Token。

然而這種方式在生成的時候既沒法利用GPU并行計算的能力,也破壞了幀內的相關性。

因此,研究人員采用了Next-Frame Diffusion (NFD)的方式來建模視頻,其使用幀內雙向注意力,幀間因果注意力機制的方式來建模視頻,并采用擴散模型多步迭代生成連續Token。

這樣做的好處是可以在生成的時候逐幀采樣來流式生成視頻,并在幀內并行生成以提高推理效率。

為進一步提高生成效率,研究人員進一步通過以下技術來減少推理時的總采樣次數:

  • 將一致性蒸餾擴展到視頻領域,并專門針對視頻模型優化,從而少量采樣步驟,實現高效推理;
  • 提出了投機采樣方法。由于相鄰幀常常動作輸入相同,模型使用當前動作輸入生成多個后續幀,若輸入動作發生變化,則丟棄投機生成的幀,以充分利用并行計算能力。

圖片

引入塊狀因果注意力機制的Transformer

具體來說,NFD的架構包含一個將原始視覺信號轉換為Token的Tokenizer,以及生成這些Token的基于擴散的Transformer模型。在Transformer內,研究人員使用了塊狀因果注意力機制,結合幀內的雙向注意力和幀間的因果依賴,高效建模時空依賴性。

相比計算密集的3D全注意力,該方法將整體成本減少50%,支持高效地并行預測下一幀所有Token。

基于Flow Matching的訓練和推理過程

研究人員基于Flow Matching構建訓練流程,追求簡單和穩定性。對于視頻幀xi,分配一個獨立時間步t,并通過線性插值生成加噪版本:

圖片

訓練通過最小化Flow Matching損失來進行:

圖片

在采樣階段,研究人員采用DPM-Solver++,通過以下公式對同一幀的所有Token去噪:

圖片

一致性蒸餾

雖然NFD在推理階段支持并行Token采樣,受限于擴散模型的多步采樣,實現實時視頻生成仍具挑戰性。

因此,研究人員首先將一致性蒸餾擴展到視頻領域,通過數學變換將流匹配模型轉換TrigFlow模型,從而簡化了連續時間一致性模型的訓練,并針對視頻數據的特性進行調整。

具體的訓練目標為:

圖片

投機采樣

與此同時,研究人員觀察到,用戶輸入的游戲動作在很多時候是可預測的。

例如,用戶執行前進命令的時候往往會持續多幀。

鑒于這個發現,研究人員進一步提出了一種投機采樣技術,通過并行預測多個未來幀加速推理。

在投機生成后,將預測動作與實際后續動作輸入進行比較。一旦檢測到預測與真實動作不一致,丟棄之后的所有投機幀,并從最后驗證的幀重新開始生成

效果如何?

下表從視頻內容的生成效率和視覺質量兩個角度對比了本工作的方法和當前最先進方法。

其中,NFD指使用Flow Matching目標訓練并通過DPM-Solver++進行18次采樣的模型;NFD+為加速版本,通過一致性蒸餾實現4步采樣,并結合了投機采樣技術。

NFD和NFD+方法與先前模型的生成效率、質量的對比:

圖片

結果表明,NFD在多項指標上優于先前的自回歸模型。

具體而言,NFD(310M)在FVD上達到212,PSNR為16.46,優于MineWorld(1.2B)的FVD 227和PSNR 15.69,同時運行速度達6.15FPS,快超過2倍。

NFD+通過高效采樣策略顯著加速:130M和310M模型分別達到42.46FPS和31.14FPS,遠超所有基線。

即使速度提升,NFD+仍保持競爭力的視覺質量,310M模型在PSNR上達到16.83,FVD為227,與更大的MineWorld模型表現相當。

最后總結來說,團隊認為當下視頻生成模型在各個領域百花齊放,有誕生像Sora、可靈、Veo3這樣的產品,也有Genie、MineWorld這樣的游戲世界模擬器,為未來世界模型的實現提供了巨大意義。隨著視頻模型廣泛的應用,更靈活、更高效的生成范式變得越來越重要。

論文地址:https://arxiv.org/pdf/2506.01380

項目主頁:https://nextframed.github.io/

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-01-15 09:21:57

2025-03-27 09:24:16

2024-10-28 07:30:00

2025-01-26 10:50:00

模型視頻生成

2024-10-05 08:10:01

2025-05-06 09:41:06

2023-04-03 10:04:44

開源模型

2024-12-26 00:51:38

2025-04-16 09:20:00

虛擬模型數字

2025-04-22 15:34:08

視頻生成AI

2025-06-11 09:12:00

視頻生成AI

2021-08-13 15:07:02

模型人工智能深度學習

2025-06-18 16:42:15

視頻生成AI模型

2025-04-18 09:25:00

2023-12-20 14:54:29

谷歌Gen-2視頻

2023-11-24 12:10:43

AI模型

2025-02-24 10:03:21

2025-01-14 14:02:05

2024-11-08 17:34:38

2024-12-10 15:30:00

AI模型
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 狠狠婷婷综合久久久久久妖精 | 在线中文字幕视频 | 毛片大全 | xx视频在线观看 | 久草资源网站 | 久久久99国产精品免费 | 色婷婷久久久亚洲一区二区三区 | 97视频免费 | 成年免费大片黄在线观看岛国 | 99久久免费精品国产免费高清 | 日韩av在线一区二区 | 国产日产精品一区二区三区四区 | 精品免费国产视频 | 成人免费久久 | 国产三级在线观看播放 | 日本在线观看视频 | av中文字幕在线 | 国产精品欧美一区二区三区 | 国产91亚洲精品 | 国产在线一区二区 | 国产精品免费在线 | 日韩中文一区二区三区 | 青青草原综合久久大伊人精品 | 国产精品久久久久久婷婷天堂 | 日韩国产在线 | 国产成人精品综合 | 国产精品国产精品国产专区不片 | 超级黄色一级片 | 国内精品伊人久久久久网站 | 天天精品在线 | 在线观看免费毛片 | 99这里只有精品 | www.奇米| 亚洲国产aⅴ精品 | 一区| 日韩一区二区三区在线视频 | 国产激情一区二区三区 | 久久伊人操 | 欧美激情在线观看一区二区三区 | av毛片在线播放 | 情侣黄网站免费看 |