48塊GPU訓練對標千億參數SOTA!達摩院等發布基于LLM的自回歸視頻生成模型Lumos-1
文章鏈接:https://arxiv.org/pdf/2507.08801
項目鏈接:https://github.com/alibaba-damo-academy/Lumos
Lumos-1 生成的示例可視化。Lumos-1 支持文本到圖像、圖像到視頻和文本到視頻任務
亮點直擊
- MM-RoPE創新:首次在視頻生成中優化3D RoPE的頻譜分配與位置縮放,兼顧文本與視頻模態的兼容性。
- AR-DF訓練策略:通過時域管狀掩碼解決幀間信息冗余問題,實現平衡的幀級損失與高質量推理。
- 輕量高效架構:僅需最小LLM修改,無需外部文本編碼器,以48塊GPU實現對標千億參數模型的性能。
總結速覽
視頻生成效果
解決的問題
- 架構兼容性:現有自回歸視頻生成模型與標準LLM架構不兼容,或依賴外部文本編碼器,或因逐令牌解碼導致高延遲。
- 時空相關性建模:視頻數據具有強時空相關性,現有方法(如1D RoPE)未能有效建模,且3D RoPE存在頻譜范圍不平衡問題。
- 訓練效率與質量:視頻幀間空間信息冗余導致幀間損失不平衡,隨機掩碼預測效率低下,影響生成質量。
提出的方案
- Lumos-1模型:基于LLM架構的輕量修改,實現高效自回歸視頻生成,無需外部文本編碼器。
- MM-RoPE:改進的3D旋轉位置編碼,保留文本RoPE的同時優化視頻時空建模,平衡頻譜范圍與模態位置縮放。
- AR-DF(自回歸離散擴散強制):通過時域管狀掩碼(temporal tube masking)解決幀間損失不平衡問題,訓練與推理策略一致,避免質量退化。
應用的技術
- 3D RoPE擴展:將RoPE從1D擴展到3D以建模時空相關性,診斷頻譜不平衡后提出MM-RoPE。
- 令牌依賴策略:幀內雙向依賴+幀間時序因果依賴,貼合視頻數據特性。
- 內存高效訓練:階段式訓練與GPU內存優化技術,僅用48塊GPU預訓練模型。
達到的效果:
- 性能對標SOTA:在GenEval、VBench-I2V/VBench-T2V基準上媲美EMU3、COSMOS-Video2World和OpenSoraPlan。
- 架構統一性:保留LLM架構,支持多模態(文本+視頻)生成與理解。
- 高效生成:通過AR-DF和MM-RoPE提升訓練效率與生成質量,避免高延遲。
Lumos-1
Lumos-1的設計理念:首先介紹MM-RoPE,它使LLM能夠更好地感知時空以建模視覺數據。接著介紹AR-DF,它實現了有效的訓練和推理。最后介紹實現Lumos-1的關鍵技術,包括架構、內存友好技術等。
通過MM-RoPE注入時空相關性
3D RoPE的初步探索。首先將3D RoPE引入自回歸視頻生成進行初步探索。由于驗證損失與評估指標強相關,用它來觀察效果。默認使用交叉熵損失(C-Loss),遵循標準LLM訓練目標。如下圖2所示,比較了原始LLM RoPE與三種方案:
- 方案1將前1/2通道分配給全局位置編碼(即全局序列索引),后1/2通道以2:3:3比例分配時間、高度和寬度位置。文本標記僅使用前半通道編碼全局位置以保證語言建模能力,視覺標記僅使用后半編碼3D位置;
- 方案2擴展方案1,利用視覺標記前半通道額外編碼全局位置;
- M-RoPE使用視覺標記全部通道編碼3D位置。
下圖3(a)顯示:
- 通過比較原始RoPE與方案1,時空相關性注入顯著提升模型擬合能力;
- 為視覺標記注入光柵掃描順序位置信息(方案2的全局位置)會降低性能;
- 全通道利用(M-RoPE)優于部分通道利用(方案1)。因此,在此生成模型中注入此類先驗具有前景。
剖析3D RoPE及其局限性。盡管3D RoPE實踐有效,但其設計仍非最優。圖3(b)可視化頻率如何分配給時間、高度和寬度維度:時間通道主導高頻段,而高度和寬度通道被分配至近零頻率。對于正弦函數,相對位置τ(當τ≥0)不應超過一個周期以避免歧義,因為超過2π弧度會導致函數模式重復。超出此范圍,模型無法區分細粒度位置差異。低索引通道的嵌入旋轉速度顯著快于高索引通道(圖3(c)),導致加速混疊和嵌入唯一性喪失;高索引通道旋轉過慢,缺乏足夠分辨率建模細微局部變化。此外,高度和寬度雖對稱重要,卻占據不成比例的小且不同的頻段,削弱其捕捉空間細節的能力。
MM-RoPE:分布式縮放3D RoPE機制。為優雅解決上述限制,本文提出MM-RoPE——分布式3D RoPE機制。相比視覺語言模型廣泛采用的M-RoPE,MM-RoPE核心思想是為所有3D信息在全面頻譜范圍內編碼相對位置。如前面圖2(b)所示,MM-RoPE中文本標記的RoPE遵循標準LLM設計,而視覺標記的RoPE由多個元MM-RoPE組件構成。每個元MM-RoPE內保持3D信息比例與3D RoPE相同(即2:3:3),同時最小化總維度以維持分布式設計。具體而言,我們首先分配時間信息通道,然后對稱交錯高度和寬度通道建??臻g信息。首個元MM-RoPE的注意力計算可表述為:
其中每個元MM-RoPE組件包含16個通道;其他組件類似定義,共同構成視覺標記的RoPE策略。
此外,對于聯合處理文本和視覺標記的模型,兩種模態間的相互作用對確保視覺-語言對齊至關重要。然而,表示文本或視覺數據的位置范圍往往不同。盡管視覺數據的潛在分辨率較低(例如448×256×25的視頻經過8×8×4壓縮后變為56×32×7),當代視覺生成系統通常使用極長描述性標題進行訓練。為平衡兩種模態,本文提出縮放3D位置以確保均衡學習。具體而言,我們通過乘以壓縮比將潛在3D位置經驗性地縮放至RGB空間,如下圖5(a)所示。這一簡單縮放操作從另一角度通過略微加快旋轉速度提升了視覺標記的RoPE分辨率。實驗部分證明其有效性,從而表明從RoPE角度平衡兩種模態的重要性。
然而鑒于視頻的自回歸生成特性,這種縮放可能并非最優解。更先進的解決方案留待未來工作。
自回歸離散擴散強制
最樸素的生成范式(即下一標記預測)存在生成效率低下的問題,使其不適用于自回歸視覺生成。本文采用離散擴散技術生成視覺內容,并結合時序因果依賴實現時序自回歸生成范式。但由于Lumos-1的自回歸特性,原始隨機掩碼(全局隨機掩碼)或時序獨立掩碼(擴散強制)均會導致顯著的損失不平衡——后期幀的視覺標記往往具有更低損失。由于在充足歷史幀上下文條件下預測幀的任務難度遠低于根據文本提示預測首幀或根據首幀預測第二幀,模型會傾向于優化更簡單任務,導致時序學習退化。
實現
架構Lumos-1架構遵循Llama,默認集成RMSNorm和SwiGLU。為穩定訓練,本文采用Chameleon的查詢-鍵歸一化(QK-Norm)。模型包含三個規模(0.5B/1B/3B),架構細節見附錄。注意快速消融研究使用0.5B版本。
標記器為統一視覺與文本標記處理,采用Cosmos標記器的離散版本,實現8×8×4的時空壓縮率。文本標記保留Chameleon的文本標記器。因此Lumos-1總碼本大小為129,536(65,536文本標記+64,000視覺標記)。
序列格式化視覺標記與文本標記在序列中間隔排列,文本標記指定元數據(包括文本提示、視頻分辨率、幀率及幀數)。借此設計,本文無需調整尺寸即可訓練不同寬高比的圖像和視頻。
GPU內存友好實現
默認使用Flash Attention加速注意力計算,降低Lumos-1訓練和推理時的內存開銷。此外,觀察到大型碼本訓練時GPU內存消耗顯著,因此取消語言相關損失(如文本的下一標記預測),將最終logit矩陣尺寸縮減至僅匹配視覺標記。雖然文本標記嵌入(將文本索引映射為嵌入)仍可訓練,此舉使模型聚焦視頻生成。若目標為支持語言模態的統一模型,可重新添加該損失。最后,針對129K標記類型的損失計算存在極高內存消耗(易引發內存溢出),采用分塊交叉熵損失:通過上轉型并逐塊計算softmax logits,保持完整softmax精度。默認分塊大小為2,000,顯著降低峰值內存使用。
分階段訓練
鑒于Lumos-1的自回歸特性,視頻生成訓練可分為兩項能力:1) 文本到圖像;2) 單圖/多圖到視頻。盡管AR-DF訓練大幅緩解學習不平衡問題,仍觀察到后者任務相對更易。因此需分階段訓練確保視頻生成成功:
- 專用文本到圖像訓練(256p分辨率)
- 圖像-視頻聯合訓練(256p分辨率)
- 聯合訓練(384p分辨率視覺數據)
實驗
實驗細節
數據集:
- 圖像數據集:6,000萬張(保留原始寬高比)
- 視頻數據集:1,000萬段(剪輯為25幀/段)
視覺生成對比
文本到圖像生成(下表1):
- 優于同規模擴散模型(如SD-XL),媲美FLUX
- 自回歸模型中媲美EMU3,且離散擴散推理效率顯著更高
- 在位置/屬性綁定任務中表現優異,證明無需文本預訓練即可實現卓越語言理解與視覺-語言對齊
圖像到視頻生成(下表2):
- 未專門訓練該任務,但通過指定首幀實現
- 超越VideoCrafter-I2V,媲美數據量(1億>1千萬)和算力(1萬張H100>48張H20)遠超的COSMOS-Video2World
文本到視頻生成(下表3):
- 盡管采用離散標記器,仍媲美OpenSoraPlan等擴散模型(且無需笨重預訓練文本編碼器)
- 自回歸特性通過首幀質量保障視頻質量,在物體中心指標(物體類別與顏色)上表現突出
分析與消融研究
定性視覺對比
本文在下圖6中將Lumos-1與主流視頻生成方法進行對比。對于文本到視頻(T2V),我們的384p視頻在視覺質量上不遜色于LTX-Video的512p視頻。在提供的案例中,Lumos-1生成了更自然的運動(水波)且更貼合提示詞(穿紅色衣服的滑雪者和波浪)。對于圖像到視頻(I2V),Lumos-1在多物體(示例1中的多個漂浮熱氣球)和細粒度運動(示例3中海岸線周圍的細微漣漪)處理上顯著優于Stable Video DiffusionSVD),后者僅生成全局相機運動。在示例2中,SVD產生了明顯模糊,而Lumos-1實現了物體的平滑動畫。更多可視化結果見附錄。
MM-RoPE的有效性。下圖7(b)展示了0.5B模型在四種RoPE設置下的驗證損失。需注意,M-RoPE表示兩種設計均被移除??梢杂^察到,MM-RoPE始終收斂更快且穩定在最低損失,證實了其對細粒度時空信息建模的優勢。盡管單獨移除任一組件均會提高損失,但移除分布式設計的負面影響大于移除縮放位置設計,表明全面的頻率分配是主導因素。同時移除兩種增強會導致最慢收斂和最高平臺期,說明這兩種機制在高效視頻生成中具有互補性。
MM-RoPE中元MM-RoPE數量的影響。MM-RoPE將嵌入通道劃分為若干元組。更多元組意味著某一類信息(時間、高度或寬度)能獲得更廣譜的頻率建模。下圖9(a)繪制了0.5B模型在四種設置下的驗證損失:
- 無分布式設計:沿用此前設計,將前2/8通道分配給時間建模,3/8通道分別分配給高度和寬度建模;
- 元MM-RoPE數量=1:配置一個64通道的元MM-RoPE,同時保持時間、高度和寬度建模的比例(2:3:3)。此變體通過交錯高度和寬度通道提升了兩個空間維度的頻譜范圍;
- 元MM-RoPE數量=2:配置兩個32通道的元MM-RoPE,進一步擴展時間、高度和寬度信息的頻譜范圍;
- 元MM-RoPE數量=4(默認設計):每個元MM-RoPE保持最小通道數(16通道),使時間、高度或寬度維度的頻譜覆蓋最全面。
結果證實,通過增加元MM-RoPE數量拓寬各維度頻譜,能顯著提升時空建模和整體訓練效率。
MM-RoPE的推理開銷分析。與M-RoPE類似,MM-RoPE需定位視覺標記起始位置后應用RoPE機制,需少量計算。表4對比了使用標準1D RoPE、M-RoPE和MM-RoPE生成圖像和視頻的推理速度??捎^察到:1)相比1D RoPE,引入3D先驗僅增加3.5%-4.1%推理延遲;2)相比M-RoPE,MM-RoPE未引入額外延遲。
CFG縮放的敏感性分析。前面圖7(c)使用1B模型研究了引導縮放對GenEval的影響。發現縮放值在13至16(默認值)區間內效果良好。
對寬高比的魯棒性。盡管訓練數據寬高比多為7:4,但表5顯示Lumos-1 1B因統一碼本設計能很好適應不同寬高比的視覺生成。
結論
Lumos-1,一種利用LLM架構的自回歸視頻生成模型。本文提出MM-RoPE以改進時空動態建模,并提出AR-DF以在考慮幀內雙向性和幀間時序因果性的前提下實現高效訓練與推理。期待Lumos-1成為構建基礎統一模型的重要一步。
本文轉自AI生成未來 ,作者:AI生成未來
