清華特獎得主團隊視頻生成AI一夜刷屏！100%開源+61頁技術報告，還能無限擴展生成，網友：游戲規則改變者

2025-04-22 15:29:05

人工智能

Magi-1，首個實現頂級畫質輸出的自回歸視頻生成模型，模型權重、代碼100%開源。整整61頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計，給人一種視頻版DeepSeek的感覺。

整整61頁的技術報告中還詳細介紹了創新的注意力改進和推理基礎設施設計，給人一種視頻版DeepSeek的感覺。

圖片

Magi-1將視頻生成卷到了新高度，大片級品質直接鎖住大家的眼球，請看VCR：

其主打能力，一是無限長度擴展，實現跨時間的無縫連貫敘事：

圖片

二是能將生成時長控制精確到每一“秒”：

圖片

另外，Magi-1對物理規律也有更深度的理解，Physics-IQ基準測試56.02%，大幅領先一眾頂流。

現在看這張圖，Sora的時代是真的過去了。

圖片

這匹“黑馬”來自中國團隊Sand.ai，中文名聽著有點萌叫三呆科技，實力卻不容小覷。

創始人曹越，清華特獎得主、光年之外聯合創始人。

目前大伙兒可在官網免費試玩Magi-1。GitHub更是一晚過后狂攬500+Star。

圖片

此次開源了從24B到4.5B參數的一系列模型，最低配置一塊4090就能跑。

圖片

網友們激動轉發測試，評價也是相當高，看一下這個feel：

圖片

這絕對是令人驚嘆的工作。將自回歸擴散應用于視頻領域不僅是研究上的一大步，更是為現實世界的創意領域開辟了新可能。Magi-1在生成質量和精度上樹立了新標桿。
開源特性+令人矚目的基準測試表現=游戲規則改變者。

圖片

無限長度擴展，控制精確到每“秒”

還有更多官方效果展示，先來欣賞一波～

比如漂在水面上的貓，水面自然晃動，波光粼粼：

圖片

抽著雪茄的海盜船長，頗有大片的感jio：

圖片

光影等細節滿滿：

圖片

網友們也都陸陸續續曬出了自己的實測效果：

畫質超清晰，VR頭顯上的細微反光以及狗的胡須和毛發細節都栩栩如生。

圖片

還有網友生成了正在跳舞的小動物，belike：

圖片

量子位自然不能錯過，第一時間上手實測了一波。

玩法上，打開Magi-1，主打圖生成視頻，且是以一個“項目”為單位：

圖片

上傳好圖片之后，Magi-1像一張畫布一樣，呈現節點式的交互界面，點擊圖片側邊加號按鈕就能創建一個“視頻塊”。

開始設置prompt，支持精確調整時長，一次最長10s，也可設置Variations一次性生成多個視頻：

圖片

稍等片刻，一只活蹦亂跳的吉卜力小狗就生成好了。

我們第一次嘗試就得到了下面醬嬸兒的效果，小狗的動作姿態整體比較符合物理規律，沒有離譜的扭曲以及突然出現的第五條腿（doge）。

視頻左邊還有自動改寫增強后的prompt。

圖片

接著，對這段視頻進行擴展，小狗搖頭晃腦活蹦亂跳在表達什么呢？

圖片

原來是在講述它今天在河里游泳玩耍的事情。

圖片

把這一個個鏡頭“組裝”起來，分分鐘就能打造出一部連貫的敘事短片。

另外Magi-1中還有“資產管理”板塊，可基于生成的視頻再創建一個新項目，進行二次加工創作。

圖片

完整模型架構、推理基礎設施公開

Magi-1公布的技術論文足足有61頁之多。

圖片

Magi-1整體架構基于Diffusion Transformer，采用Flow-Matching作為訓練目標。

訓練分為多階段，第一階段固定分辨率（256×256，16 幀），第二階段引入可變分辨率和圖像-視頻聯合訓練，并在推理時使用滑動窗口方法來支持任意分辨率。

其最大的特點是不把視頻當成一個整體去生成，而是通過自回歸去噪方式預測固定長度的視頻片段（chunk），每個片段固定為24幀。

當前一個片段達到一定去噪水平后，便開始生成下一個片段。這種流水線設計最多可同時處理四個片段，提高視頻生成的效率。

同時，這種約束早期片段噪聲水平低于后期片段的設計，確保了視頻前后的因果性，避免片段的信息影響過去，導致時間一致性差（如物體突然消失或運動軌跡斷裂）。

圖片

配合這種分片段自回歸設計，Magi-1在Diffusion Transformer的基礎上融入了多項改進。

圖片

光是在注意力機制上就有多項創新。

Block-Causal Attention

片段內全注意力：每個視頻片段內的所有幀間進行全注意力計算，捕捉片段內短時序依賴（如單片段內物體的快速運動）。
片段間因果注意力：僅允許當前片段關注之前已生成的片段，禁止未來片段信息反向流入，確保因果性。
3D RoPE 位置編碼：結合空間和時間位置信息，學習可訓練的基頻參數，提升長時序建模能力。

Parallel Attention Block

傳統DiT架構中自注意力（處理視覺特征）和交叉注意力（處理文本條件）串行執行，需兩次TP通信（Tensor Parallel）；并行塊將兩者的查詢投影Q共享，僅需一次通信，減少GPU間同步開銷

QK-Norm和GQA

QK-Norm是源自視覺Transformer的技術，通過歸一化查詢（Q）和鍵（K）的范數，穩定注意力權重計算，避免梯度爆炸/消失。Magi-1將其擴展到時空注意力和交叉注意力模塊，提升訓練穩定性，尤其在240億參數規模下效果顯著。

接下來的GQA、FFN 中的三明治歸一化、SwiGLU大家就很熟悉了。

到了具體軟硬協同層面，論文還提出了可擴展分布式注意力機制MagiAttention。

Flex-Flash-Attention

基于FlashAttention-3，將不規則注意力掩碼分解為多個 AttnSlice，使各種常用注意力掩碼可表示為多個AttnSlice的組合，從而支持靈活的注意力掩碼類型。利用英偉達Hopper 架構的TMA 特征，引入Slice級并行和原子操作，在支持靈活掩碼的同時，保持與FlashAttention-3相當的計算性能。

計算負載均衡

將整個掩碼沿查詢維度均勻劃分為多個dispatch chunks，并分配到不同的上下文并行（CP）對應的bucket中，使每個bucket包含相同數量的dispatch chunks，避免因負載不均衡導致的計算資源閑置。

零冗余通信原語

針對現有環形點對點通信原語存在冗余通信的問題，引入group-cast和 group-reduce原語。根據注意力掩碼的需求，精準地發送和收集關鍵值（KV）及梯度（dKV）信息，避免不必要的通信，實現零冗余通信。通過使用all-to-all-v原語進行原型實現，并借助內核融合減少預處理和后處理開銷。

圖片

自適應多階段重疊

為實現真正的線性擴展，引入多階段計算-通信重疊策略，將每個rank的遠程 KV/dKV 通信劃分為多個階段。

在正向傳遞中，先啟動group-cast內核預取下一階段的遠程KV，然后異步執行Flex-Flash-Attention（FFA）內核進行部分注意力計算；

在反向傳遞中，除了預取 KV，還在啟動 FFA 內核前，通過group-reduce內核減少上一階段的dKV。通過引入可調節超參數num_stages，根據不同訓練設置、微批次以及正向和反向傳遞的計算-通信比率，自適應地控制重疊粒度。

所有這些改動作為一個完整的MagiAttention項目，代碼也在GitHub上開源。

圖片

推理基礎設施方面，主要針對兩種場景進行設計：實時流式視頻生成和在 RTX 4090 GPU 上的經濟高效部署，以滿足不同應用需求。

在實時流式視頻生成上采用異構服務架構，將T5（提取文本Embedding，為視頻生成提供語義信息）和Magi-1部署在高性能GPU 上，VAE部分部署在經濟高效的硬件上，實現Magi-1推理和VAE解碼并發執行，并通過分析性能數據來分配資源，提升整體吞吐量。

針對RTX4090部署場景，借鑒語言模型將KV緩存存儲在CPU內存中，根據需要動態加載回GPU。針對RTX4090的PCIe總線帶寬限制，提出Context Shuffle Overlap（CSO）技術，優化通信與計算的重疊，提升計算資源利用率，使4.5B參數模型在單塊RTX 4090 GPU上部署時，峰值內存占用控制在21.94GB；24B模型在8塊RTX4090 GPU上部署時，峰值內存占用控制在19.29GB，且最大MFU（浮點運算數利用率）達到 58% 。

最后，評估結果分為內部人工評估、自動評估（VBench-I2V基準）、物理理解能力評估三部分。

人類評估中Magi-1與海螺、騰訊混元、通義萬相Wan2.1相比，尤其是在指令跟隨和運動質量方面有優勢，與閉源模型可靈1.6在視覺質量上還有一些差距。

圖片