成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代 精華

發布于 2025-4-23 12:13
瀏覽
0收藏

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

文章鏈接:https://arxiv.org/pdf/2504.13074 
代碼&模型鏈接:https://github.com/SkyworkAI/SkyReels-V2

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

SKyReels-V2 生產驚人的現實和電影的高分辨率視頻幾乎無限長度

亮點直擊

  • 全面的視頻標注器,既能理解鏡頭語言,又能捕捉視頻的通用描述,從而顯著提升提示詞遵循能力。
  • 針對運動優化的偏好學習,通過半自動數據收集流程增強運動動態表現。
  • 高效的擴散強制適配,支持超長視頻生成和故事敘述能力,為時序連貫性和敘事深度提供穩健框架。
  • 開源SkyCaptioner-V1SkyReels-V2系列模型,包括擴散強制、文生視頻、圖生視頻、導演模式和元素生視頻模型,并提供多種參數量級(1.3B、5B、14B)。

先睹為快

SkyReels-V2現已支持生成30秒、40秒的視頻,且具備生成高運動質量、高一致性、高保真視頻的能力。讓我們先來一睹它的風采。

Prompt:A graceful white swan with a curved neck and delicate feathers swimming in a serene lake at dawn, its reflection perfectly mirrored in the still water as mist rises from the surface, with the swan occasionally dipping its head into the water to feed.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

Prompt:A graceful sea turtle glides through the ocean currents, its powerful flippers moving rhythmically as it swims. The turtle's smooth, greenish-brown shell catches glimpses of sunlight filtering through the water, creating a mesmerizing play of light and shadow. Schools of small fish dart around the turtle, adding life to the underwater scene. The background showcases vibrant coral reefs and swaying seaweed, creating a rich, dynamic marine environment. Wide-shot underwater scene with gentle camera movement following the turtle's path.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

Prompt:A woman stands before a vanity mirror, applying makeup with precise, deliberate motions. Her reflection shows focused eyes and a slight smile as she blends powder onto her cheeks. A soft lamp casts warm light, highlighting her hands holding a brush and compact. The mirror reflects a cluttered desk with makeup palettes, a perfume bottle, and scattered brushes. Her hair is loosely tied back, strands falling as she tilts her head. The scene shifts to her lips as she applies gloss, then to her eyes with eyeliner. The atmosphere is calm and intimate, with subtle details like the mirror’s frame, the texture of her skin, and the gentle sound of brushes.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

Prompt:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

Prompt:A jellyfish floats in deep blue waters, its translucent bell rhythmically contracting and expanding. Its tentacles drift like ribbons in the water. As the jellyfish gracefully swims, we see it passing through a colorful coral reef, where the orange, pink, and purple corals create a striking contrast against the blue-white hues of the jellyfish. The jellyfish continues forward, entering a forest of seaweed, where slender green fronds sway gently with the ocean currents. Finally, the jellyfish drifts toward an open sandy area, scattered with a few glistening starfish and shells. Throughout the journey, sunlight penetrates from the surface, creating beams that cut through the water, adding shifting patterns of light and shadow to this dreamlike underwater world.

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

總結速覽

解決的問題

  • Prompt Adherence(提示詞遵循):現有通用多模態大語言模型(MLLM)難以理解電影語法(如鏡頭構圖、演員表情、攝像機運動),導致生成的視頻不符合專業電影風格。
  • Motion Dynamics(運動動態):現有方法在優化時往往犧牲運動質量以提升視覺質量,導致動態效果不足。
  • Video Duration(視頻時長):現有模型受限于分辨率優化,通常只能生成5-10秒的短視頻,難以實現長視頻合成。
  • Training Stability(訓練穩定性):現有擴散模型和自回歸模型結合方法(如Diffusion-forcing Transformers)存在噪聲調度不穩定問題,影響收斂。

提出的方案

  • 結構化視頻表示(Structural Video Representation):結合通用MLLM描述和專家模型(如鏡頭類型、攝像機運動)的細粒度標注,提升電影風格生成能力。
  • 統一視頻標注模型(SkyCaptioner-V1):通過知識蒸餾整合通用MLLM和專家模型的標注能力,提高視頻描述的準確性和專業性。
  • 多階段訓練策略(Multi-stage Training)
  • 漸進分辨率預訓練(Progressive-resolution Pretraining):優化基礎視頻生成能力。
  • 四階段后訓練增強(4-stage Post-training)
  1. 概念平衡的監督微調(SFT):提升基線質量。
  2. 基于強化學習的運動優化(RL Training):利用人工標注和合成失真數據優化動態效果。
  3. 擴散強制框架(Diffusion Forcing Framework):采用非遞減噪聲調度,降低搜索空間復雜度,支持長視頻合成。
  4. 高質量SFT微調:進一步提升視覺保真度。

應用的技術

  • 多模態大語言模型(MLLM):用于通用視頻描述生成(如Qwen2.5-VL)。
  • 專家模型(Sub-expert Models):針對電影語法(鏡頭、表情、攝像機運動)進行細粒度標注。
  • 強化學習(RL):優化運動動態,減少人工標注成本(半自動偏好數據生成)。
  • 擴散強制框架(Diffusion Forcing):結合擴散模型的高保真和自回歸模型的時序一致性,支持長視頻生成。
  • 漸進訓練(Progressive Training):從低分辨率到高分辨率逐步優化模型。

達到的效果

  • State-of-the-art性能
  • 在V-Bench評測中排名第一(截至2025-02-24)。
  • 提示詞遵循(尤其是電影語法)運動質量長視頻生成方面表現最優。
  • 支持無限時長視頻生成:通過擴散強制框架和非遞減噪聲調度,突破傳統5-10秒限制。
  • 專業電影風格生成:能夠生成符合電影語法(如鏡頭構圖、攝像機運動)的高質量視頻。
  • 多樣化應用:支持故事生成、圖生視頻、導演模式(Camera Director)、元素生成視頻等。

方法

本節全面概述了本文的方法框架。下圖2展示了訓練流程。首先詳述數據處理流程,接著解釋視頻標注器架構,隨后描述多任務預訓練策略,并在闡述后訓練優化技術——包括強化學習、擴散強制訓練以及高質量監督微調(SFT)階段。還概述了訓練與推理的計算基礎設施。為驗證方法有效性,進行了與前沿基線的系統對比,展示了模型的實際應用場景,包括故事生成、圖生視頻、導演模式和元素生視頻生成。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

數據處理

數據處理是視頻模型訓練的基石。本文的框架整合了三個核心組件——數據源處理Pipeline人工循環驗證——以確保嚴格的質控標準。如圖3所示,處理Pipeline采用從寬松到嚴格的漸進過濾策略,在訓練過程中逐步縮減數據規模的同時提升質量。該Pipeline首先處理來自多樣化數據源的原始輸入,隨后通過自動化流程按不同過濾閾值控制樣本質量。關鍵支柱是人工循環驗證,其重點是對原始數據源及各階段訓練樣本進行人工評估。

通過在數據輸入、Pipeline輸出等關鍵節點進行系統化抽樣檢查,可識別并修正模糊、錯誤或非合規數據,最終保障模型訓練所需的高質量數據。

數據源

針對電影生成模型的目標,多階段質控框架整合了三類數據源:

  1. 通用數據集:整合開源資源如Koala-36M、HumanVid及網絡爬取的額外視頻;
  2. 自采影視庫:包含28萬+部電影和80萬+集電視劇(覆蓋120+國家,總時長預估620萬+小時);

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

處理Pipeline

如下圖3所示,為構建訓練數據池,原始數據需經過兩項預處理:鏡頭分割標注,隨后通過不同訓練階段的數據過濾器處理質量問題。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

系統化分析將數據問題分為三類:

  1. 基礎質量:低分辨率、低幀率、黑/白/靜態畫面、鏡頭抖動、運動不穩定、隨意鏡頭切換;
  2. 視頻類型問題:監控錄像、游戲錄屏、動畫、無意義內容、靜態視頻;
  3. 后處理偽影:字幕、臺標、圖像編輯、分屏、黑/模糊邊框、畫中畫、變速、特效/馬賽克(詳見下表1)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

使用數據裁剪器修復特定質量問題,并進行數據平衡以確保模型泛化性。預訓練階段生成多階段預訓練數據,后訓練階段生成后訓練數據。

預處理階段包含兩個流程:

  1. 鏡頭分割:所有原始視頻通過PyDetect和TransNet-V2進行鏡頭邊界檢測,分割為單鏡頭片段;
  2. 標注:分割后的單鏡頭片段使用下面的層次化標注系統進行標注。

預處理完成后,訓練數據池將經歷多級數據過濾(各階段閾值不同),同時引入數據裁剪器修復質量問題。

數據過濾器細節

本部分將闡述數據過濾器的分類及具體細節。數據過濾器由元素過濾器質量過濾器組成,用于不同訓練階段的數據篩選。元素過濾器用于評估特定質量問題的嚴重程度,包括兩類:

  • 基于分類的過濾器:檢測問題是否存在或分類;
  • 基于評分的過濾器:根據質量需求設置不同閾值。

具體包括:

  1. 黑屏過濾器:使用啟發式規則檢測黑屏數據;
  2. 靜態畫面過濾器:通過光流計算得分檢測靜態畫面;
  3. 美學過濾器:調用美學模型獲取評分;
  4. 去重:利用拷貝檢測嵌入空間的相似性消除感知冗余片段,提升預訓練集多樣性;
  5. OCR過濾器:分析文本存在性并計算文本區域占比,根據訓練階段裁剪數據;
  6. 馬賽克過濾器:訓練專家模型檢測馬賽克區域;
  7. 特效/貼紙過濾器:訓練專家模型識別特效或貼紙。

此外,還整合了多種質量過濾器,例如:

  • 視頻質量評估模型(VQA)
  • 圖像質量評估模型(IQA)
  • 視頻訓練適用性評分(VTSS)

這些模型將在特定訓練階段后啟用,并設置不同閾值進行數據篩選。圖3展示了不同訓練階段中過濾器的應用情況。

字幕與臺標裁剪細節

大部分訓練數據來自影視劇,可能包含影響生成質量的字幕和臺標。直接丟棄此類數據會造成浪費,因此我們依次執行以下處理:

  • 黑邊裁剪(預處理)
  • 基于啟發式方法裁剪黑邊,為字幕檢測提供更干凈的數據;
  • 字幕檢測
  • 定義四個候選區域(幀頂部20%、底部40%、左右各20%);
  • 臺標檢測
  • 聚焦四角區域(各占幀寬/高的15%);
  • 使用MiniCPM-o模型檢測并記錄臺標坐標;
  • 視頻裁剪
  • 構建與視頻幀尺寸匹配的二進制矩陣(字幕/臺標區域標記為0,其余為1);
  • 應用單調棧算法(詳見算法A1)定位僅含1的最大內部矩形;
  • 若該矩形覆蓋原幀80%以上面積且寬高比接近原幀,則按坐標裁剪所有幀并保存為新片段,否則丟棄數據。

完整流程如圖4所示。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

后訓練階段的數據平衡

在后訓練階段,基于標注器的主語類別進行細粒度概念平衡,使數據量減少50%。下圖5展示了平衡前后按主類別分組的概念分布對比。平衡后,還統計了每個主類別下子類別的分布情況。下表2詳細列出了前五類主類別的子類別統計數據。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

人工參與式驗證

人工參與式驗證(Human-In-The-Loop Validation)要求在數據生產的每個階段——數據源(Data Sources)、鏡頭分割(Shot Segmentation)、預訓練(Pre-training)和后訓練(Post-training)——進行人工視覺檢查,以確保模型訓練所用數據的高質量。對于數據源,人工需主觀評估原始數據是否適合使用。在鏡頭分割階段,審核人員會檢查樣本,確保錯誤鏡頭(如錯誤轉場)比例低于1%。預訓練階段會對數據進行過濾,并手動檢查0.01%的樣本(每10,000個樣本檢查1個),以滿足嚴格限制:總體不良案例(如質量差、內容類型錯誤或處理問題)必須低于15%,其中子類別要求包括基礎質量問題<3%、視頻類型問題<5%和后處理缺陷<7%。后訓練階段采用相同的0.1%抽樣率(每1,000個樣本檢查1個),但標準更嚴格:總不良案例需低于3%,包括基礎質量<0.5%、視頻類型問題<1%和后處理缺陷<1.5%。


通過人工檢查得出的不良案例率來確定數據源批次的可用性。若某批次的不良案例率超過預設閾值,將采取丟棄或進一步優化該批次等措施。此外,會根據不同數據源的特點調整過濾參數。例如,對于質量問題頻發的數據源,會加強質量相關過濾條件。這種分階段人工評估確保了數據質量始終維持在較高水平,從而助力模型高效訓練。

視頻描述生成器

本文的視頻描述生成器(Video Captioner)旨在通過結合結構化描述格式與專業化子專家描述器,生成精確的視頻描述。其目標包括:1)糾正多模態大語言模型(MLLM)的錯誤或幻覺信息;2)持續優化動態視頻元素(如鏡頭信息、表情和攝像機運動);3)根據應用場景(文本生成視頻或圖像生成視頻)動態調整描述長度。


本文設計了如下圖6所示的結構化描述,從多維度提供不同視角的詳細信息,包括:1)主體:主要和次要實體及其屬性(如外觀、動作、表情、位置、層級類別/類型,例如“動物→哺乳動物”);2)鏡頭元數據:鏡頭類型、鏡頭角度、鏡頭位置、攝像機運動、環境、光線等。我們使用基礎模型Qwen2.5-VL-72B-Instruct生成這些初始結構化信息,但部分信息會被專家描述器的結果替換以獲得更精準的描述。最終,我們通過融合結構化數據為不同模型生成最終描述:1)文本生成視頻:生成密集描述;2)圖像生成視頻:聚焦“主體+時序動作/表情+攝像機運動”。每個描述字段遵循10%的丟棄率,以適應不同用戶場景(用戶可能無法精確描述每個字段)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

子專家標注器

鏡頭標注器

鏡頭標注器由三個子標注器組成,分別描述鏡頭的不同方面。包括鏡頭類型、鏡頭角度和鏡頭位置。將這些方面定義為分類問題。1)鏡頭類型:特寫鏡頭、極特寫鏡頭、中景鏡頭、遠景鏡頭和全景鏡頭。2)鏡頭角度:平視鏡頭、高角度鏡頭、低角度鏡頭。3)鏡頭位置:背面視角、正面視角、頭頂視角、肩上視角、主觀視角和側面視角。


本文的訓練方法采用精心設計的兩階段策略來開發強大的鏡頭分類器。第一階段,使用網絡圖像訓練初步分類器,以建立基線性能(使用類別標簽作為觸發詞從網絡抓取數據)。該低精度模型主要用于從我們的電影數據集中提取在所有目標類別中均衡的真實世界場景數據。第二階段專注于通過對真實電影數據的人工標注來開發高精度專家分類器,每個類別包含2,000個精心標注的樣本。


這些標注樣本構成我們最終高精度分類器的訓練集,這些分類器專門針對真實電影視頻中的鏡頭類型、鏡頭角度和鏡頭位置分類進行了優化。這種多階段訓練方法既確保了訓練數據集中類別的均衡,又保證了生產應用中的高分類精度。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區


表情標注器

表情標注器提供對人類面部表情的詳細描述,重點關注幾個關鍵維度:1)情緒標簽:情緒分為七種常見類型,即中性、憤怒、厭惡、恐懼、高興、悲傷和驚訝。2)強度:情緒的強度被量化,例如“輕微憤怒”、“中度快樂”或“極度驚訝”,表示情緒的強度。 3)面部特征:構成情緒表達的物理特征,包括眼睛形狀、眉毛位置、嘴角彎曲程度、皺紋和肌肉運動。4)時間描述:捕捉情緒在時間上的動態變化,重點是情緒如何演變以及這些變化在視頻中的時間點。


表情標注生成包含兩個階段:1)首先檢測并裁剪人臉,并使用情緒分類器對其情緒進行分類。2)然后將情緒標簽和視頻幀輸入VLM模型以生成詳細的表情標注。適配了S2D 的框架,并使用約內部數據集對模型進行訓練,聚焦于人類與非人類角色。對于VLM模型,使用InternVL2.5生成基于幀的描述,并將情緒標簽作為先驗,通過鏈式思維提示策略對描述進行優化,生成最終表情標注。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

攝影機運動標注器

本文的框架通過一個三級處理管線整合“運動復雜度過濾”、“單類型運動建模”和“單類型運動數據整理”,采用分層分類策略對攝影機運動進行建模。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

SkyCaptioner-V1:結構化視頻描述模型

SkyCaptioner-V1作為最終用于數據標注的視頻描述模型,該模型基于基礎模型Qwen2.5-VL-72B-Instruct的描述結果和子專家描述器在平衡視頻數據上進行訓練。平衡視頻數據集是從1000萬初始樣本池中精心篩選出的約200萬視頻樣本,旨在保證概念平衡與標注質量。


基于Qwen2.5-VL-7B-Instruct模型構建的SkyCaptioner-V1經過微調,以增強在特定領域視頻描述任務中的表現。為與現有最先進模型(SOTA)進行性能對比,在1000個樣本的測試集上進行了跨不同描述領域的人工準確率評估。下表3展示了結構化描述中各領域的詳細準確率指標。所提出的SkyCaptioner-V1在基線模型中取得了最高平均準確率,并在鏡頭相關領域展現出顯著優勢。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

訓練細節

采用Qwen2..5-VL-7B-Instruct作為基礎模型,使用全局批次大小512進行訓練,該批次分布在64塊NVIDIA A800 GPU上,采用4個微批次大小和2步梯度累積。模型使用AdamW優化器進行優化,學習率設為1e-5,訓練2個epoch,并根據測試集的綜合評估指標選擇最佳檢查點。此訓練配置在保證大規模視頻描述任務計算效率的同時,確保了模型穩定收斂。

多階段預訓練

本文采用Wan2.1的模型架構,僅從頭訓練DiT(Diffusion Transformer),同時保留VAE和文本編碼器等組件的預訓練權重。隨后,使用流匹配框架訓練視頻生成模型。該方法通過連續時間概率密度路徑將復雜數據分布轉換為簡單高斯先驗,支持通過常微分方程(ODE)實現高效采樣。

訓練目標

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

計算真實速度向量vt為:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

基于此訓練目標,首先設計雙軸分桶框架和FPS標準化方法對數據進行歸一化處理,隨后執行分辨率逐步提升的三階段預訓練。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

為解耦幀率依賴性,在DiT架構中引入可學習頻率嵌入,這些嵌入與時間步嵌入進行加性交互。這些可學習頻率嵌入將在高質量SFT階段僅使用FPS-24視頻數據后被棄用。


預訓練階段1

首先在低分辨率數據(256p)上進行預訓練以獲取基礎生成能力。本階段提出聯合圖像-視頻訓練方案,支持不同寬高比和幀長。我們實施嚴格數據過濾以去除低質量和合成數據,并通過去重保證數據多樣性。該低分辨率階段幫助模型從大量樣本中學習低頻概念。此階段訓練的模型展現出基礎視頻生成能力,但生成視頻仍較模糊。

預訓練階段2

本階段繼續聯合圖像-視頻訓練,但將分辨率提升至360p。應用更復雜的數據過濾策略,包括時長過濾、運動過濾、OCR過濾、美學過濾和質量過濾。此訓練階段后,生成視頻清晰度顯著提升。

預訓練階段3

在最終預訓練階段將分辨率擴展至540p,專注于視頻目標。我們實施更嚴格的運動、美學和質量過濾標準以確保高質量訓練數據。此外,引入源過濾以去除用戶生成內容,同時保留影視級數據。該方法提升生成視頻的視覺質量,顯著增強模型生成具有優秀紋理和電影級質量的真實人類視頻的能力。

預訓練設置

優化方面,在所有預訓練階段均采用AdamW優化器。階段1中初始學習率設為1e-4,權重衰減為0。當損失收斂至穩定范圍后,將學習率調整為5e-5并引入1e-4權重衰減。階段2和階段3中,學習率進一步降至2e-5。

后訓練階段

后訓練是提升模型整體性能的關鍵階段,后訓練包含四個子階段:540p高質量監督微調(SFT)、強化學習、擴散強制訓練以及720p高質量監督微調。出于效率考量,前三個后訓練階段采用540p分辨率執行,最終階段則在720p分辨率下進行。540p高質量SFT利用平衡數據集提升整體性能,為后續階段奠定更優的初始化狀態。為增強運動質量,我們將采用強化學習替代標準擴散損失方法。此階段我提出半自動化流程,通過人機協同方式收集偏好數據。本文提出擴散強制訓練階段,將全序列擴散模型轉化為應用幀級噪聲水平的擴散強制模型,從而具備可變長度視頻生成能力。最后通過720p高質量SFT階段,將生成分辨率從540p提升至720p。

強化學習

受大語言模型(LLM)領域成功經驗啟發,本文提出通過強化學習增強生成模型性能。具體聚焦于運動質量優化,因為我們發現當前生成模型的主要缺陷在于:1)對大規模形變運動處理不佳(如圖下7.a、圖7.b);2)生成視頻可能違反物理定律(如圖7.c)。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

為避免文本對齊度與視頻質量等其他指標退化,確保偏好數據對的文本對齊度和視頻質量具有可比性,僅保留運動質量差異。這種要求在人類標注成本較高的現實條件下,對獲取偏好標注數據提出了更大挑戰。為此,我們設計了結合自動生成運動對與人工標注結果的半自動化流程。這種混合方法不僅擴展了數據規模,更通過質量管控提升了與人類偏好的對齊度。基于該增強數據集,我們首先訓練專用獎勵模型捕捉配對樣本間的通用運動質量差異,該學習到的獎勵函數隨后指導直接偏好優化(DPO)的樣本選擇過程,從而提升生成模型的運動質量。

人工標注偏好數據

通過對生成視頻運動偽影的嚴格分析,建立了系統性故障模式分類體系:包括運動幅度過大/不足、主體形變、局部細節損壞、物理定律違反及非自然運動等。此外,記錄與這些故障模式對應的提示詞,并通過大語言模型生成同類提示詞。這些生成的提示詞涵蓋從人機交互到物體運動等各類場景,包含上述所有運動故障類型。每個提示詞使用預訓練模型的歷史檢查點池生成四個樣本。


樣本采集完成后,相同提示詞生成的樣本被系統性地配對成樣本對。邀請專業標注人員對這些樣本對進行偏好評分。標注流程遵循兩個主要步驟:1)數據過濾:樣本將在兩種情況下被排除:首先是內容/質量不匹配——若兩個樣本描述不同文本內容或存在顯著視覺質量差異,以確保聚焦運動質量分析;其次是標注標準失效——若配對樣本中任一視頻未滿足主體清晰度、畫面內主體尺寸充足或背景構圖簡潔三項標準。經驗表明該過程將過濾約80%的數據對。2)偏好選擇:標注人員根據運動質量標準為每個樣本對分配"更好/更差/平局"標簽。人工標注的運動質量評價細則詳見表A2,其中列明了所有運動質量故障類型的描述。每個故障類型被賦予加權分數,通過計算兩個視頻的總分實現對比。

自動生成偏好數據

在嚴格質量要求下,人工標注的高成本嚴重限制了數據集規模。為擴展偏好數據集,本文設計了自動化偏好數據生成流程,包含兩個核心步驟:

1)真實數據采集使用生成提示詞在現有數據集查詢語義相似提示詞(基于CLIP特征的余弦相似度計算)。篩選獲得語義匹配的真實參考視頻作為優選樣本,拒絕樣本通過以下步驟生成以形成偏好對。

2)漸進失真構建基礎觀察發現:最先進視頻生成模型的運動質量仍遜色于真實視頻。通過對真實視頻施加可控失真來系統模擬運動缺陷。每個真實視頻附帶文本描述和首幀(靜態參考),在保持視覺結構的同時實現動態缺陷分析。創建三種失真樣本變體:V2V(噪聲潛變量直接反轉,最低失真)、I2V(首幀引導重建,中等失真)、T2V(文本描述再生,最高失真)。同時,采用不同生成模型([5,18,17])和模型參數(如時間步長)構建不同運動質量等級,保持樣本多樣性。前圖7展示了通過該自動化流程構建的三個案例。


除標準流程外,本文還探索了創新技術以誘發特定視頻質量問題。可在時域調控幀采樣率:增加或降低采樣率以產生運動幅度過度/不足效果,或交替采樣率制造異常運動。通過Tea-Cache方法調節參數并注入噪聲以破壞視頻幀局部細節。針對汽車行駛或飛鳥等場景,通過視頻倒放創建配對樣本,挑戰模型辨別物理運動正誤的能力。這些方法能有效模擬視頻生成中的各類異常案例,精確復現運動異常、局部細節丟失、違反物理定律等生成過程中可能出現的缺陷場景。

獎勵模型訓練

遵循VideoAlign方法,基于Qwen2.5-VL-7B-Instruct構建運動質量獎勵模型。訓練數據來源于上述數據收集流程,共形成3萬個樣本對。由于運動質量與上下文無關,樣本對不包含提示詞。模型采用含平局擴展的Bradley-Terry模型(BTT)訓練:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

其中i > j、i < j、i=j分別表示樣本i優于/劣于/等同于樣本j。

DPO訓練

應用文獻[46]提出的流式直接偏好優化(Flow-DPO)來提升生成模型的運動質量。其損失函數定義為:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

擴散強制訓練

本節介紹擴散強制Transformer(Diffusion Forcing Transformer),該架構賦予模型生成長視頻的能力。擴散強制是一種訓練與采樣策略,其中每個標記(token)被分配獨立噪聲水平。這使得訓練后的模型可根據任意單標記調度方案進行去噪。從概念上,該方法相當于部分掩碼(partial masking)機制:零噪聲標記完全解除掩碼,完全噪聲標記則完全掩碼。擴散強制訓練模型利用較干凈的標記作為條件信息,指導含噪標記的恢復。本文擴散強制Transformer可根據前段視頻的末幀實現無限長視頻生成。需注意,同步全序列擴散是擴散強制策略的特例——所有標記共享相同噪聲水平。這種關聯性使能夠通過全序列擴散模型微調得到擴散強制Transformer。


受AR-Diffusion啟發,本文采用面向幀的概率傳播(FoPP)時間步調度器進行擴散強制訓練,流程包含以下步驟:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

當先前幀不存在或已去噪完成時,當前幀聚焦自去噪;否則以時間步差s進行去噪。值得注意的是,同步擴散(s=0)與自回歸生成(s=T)均為特例。較小的s值使相鄰幀更相似,較大的s值提升內容多樣性。


本文的條件機制通過利用更干凈的歷史樣本作為條件實現自回歸幀生成。在此框架下,信息流具有固有方向性:含噪樣本依賴前序歷史確保一致性。這種方向性表明雙向注意力非必要,可替換為更高效的因果注意力。在采用雙向注意力完成擴散強制Transformer訓練后,可通過上下文因果注意力微調提升效率。推理階段,該架構支持歷史樣本K、V特征的緩存,消除冗余計算并顯著降低計算開銷。

高質量監督微調(SFT)

在540p與720p分辨率分別實施兩階段高質量監督微調(SFT)。初始SFT階段在預訓練完成后立即執行,但在強化學習(RL)階段之前。該階段作為概念均衡訓練器,基于僅使用fps24視頻數據的預訓練基礎模型,戰略性地移除FPS嵌入組件以簡化架構。采用高質量概念平衡樣本訓練,為后續訓練建立優化初始化參數。完成擴散強制訓練后,在720p分辨率執行二次SFT,采用相同損失函數與人工篩選的高質量概念平衡數據集。此最終精煉階段聚焦分辨率提升,實現視頻質量的整體增強。

基礎設施

本節介紹訓練與推理階段的基礎設施優化方案。

訓練優化

訓練優化聚焦保障高效穩健的訓練過程,包括內存優化、訓練穩定性與并行策略三方面:

內存優化

注意力模塊的fp32內存受限操作主導GPU內存占用。我們通過高效算子融合減少內核啟動開銷,同時優化內存訪問與利用率。梯度檢查點(GC)技術通過僅存儲transformer模塊輸入的fp32狀態最小化內存;將其轉換為bf16格式可降低50%內存且精度損失可忽略。激活卸載技術通過異步將臨時張量轉移至CPU進一步節省GPU內存。鑒于8塊GPU共享CPU內存與過度卸載導致計算重疊受限,我們策略性結合GC與選擇性激活卸載實現最優效率。

訓練穩定性

提出智能自愈框架,通過三階段修復實現自主故障恢復:實時檢測隔離受損節點、動態資源重分配(使用備用計算單元)、任務遷移與檢查點恢復確保訓練連續性。

并行策略

預計算VAE與文本編碼器結果。使用FSDP分布式存儲DiT權重與優化器狀態以緩解大模型GPU內存壓力。在720p分辨率訓練時,因大尺寸臨時張量導致嚴重GPU內存碎片化問題(即使內存充足仍觸發torch.empty_cache())。為此采用序列并行[72]技術緩解激活內存壓力。

推理優化

推理優化核心目標是在保證質量前提下降低視頻生成延遲。雖然擴散模型能生成高保真視頻,但其推理過程需30-50步多步采樣,5秒視頻生成耗時超5分鐘。實際部署中通過顯存優化、量化、多GPU并行與蒸餾實現優化:

顯存優化

部署采用RTX 4090 GPU(24GB顯存)服務140億參數模型。通過FP8量化與參數級卸載技術組合,在單GPU實例上實現720p視頻生成并保持完整模型能力。

量化

分析表明注意力與線性層是DiT主要計算瓶頸。我們對全架構實施FP8量化:線性層采用FP8動態量化結合FP8 GEMM加速,在RTX 4090上相比bf16基準實現1.10×加速;注意力操作部署sageAttn2-8bit,同平臺實現1.30×推理加速。

并行策略

采用內容并行(Content Parallel)、CFG并行與VAE并行三策略加速單視頻生成。實際部署中,從4卡擴展至8卡RTX 4090時整體延遲降低1.8×。

蒸餾

采用DMD蒸餾技術加速視頻生成。移除回歸損失,使用高質量視頻數據(替代純噪聲)作為學生生成器輸入加速收斂。同時采用雙時間尺度更新規則確保偽評分生成器跟蹤學生生成器輸出分布,以及DMD多步調度方案。如公式所示,梯度用于更新學生生成器G:

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

性能表現

為了全面評估本文提出的方法,構建了用于人工評估的 SkyReels-Bench,并利用開源的 V-Bench 進行自動化評估。這使我們能夠將本文的模型與當前最先進的(SOTA)基線模型進行比較,包括開源和專有模型。

SkyReels-Bench

在人工評估方面,設計了 SkyReels-Bench,包括 1,020 條文本提示,系統性地評估三個維度:指令遵循性、運動質量、一致性和視覺質量。該基準旨在評估文本生成視頻(T2V)和圖像生成視頻(I2V)模型,在不同生成范式下提供全面的評估。

指令遵循性

評估生成視頻與所提供文本提示之間的匹配程度。1)動作指令遵循性:對指定動作或移動的準確執行;2)主體指令遵循性:對描述主體和屬性的正確表達;3)空間關系:主體之間正確的位置和交互;4)鏡頭遵循性:指定鏡頭類型(特寫、廣角等)的正確實現;5)表情遵循性:情緒狀態和面部表情的準確描繪;6)攝影機運動遵循性:攝影機動作(平移、俯仰、變焦等)的正確執行;7)幻覺:不存在提示中未指定的內容。

運動質量

評估視頻中主體的時間動態特性。1)運動多樣性:動作的多樣性和表現力;2)流暢性和穩定性:運動的平滑性,無抖動或不連續;3)物理合理性:遵循自然物理規律和真實運動模式。

一致性

評估視頻幀之間的一致性。1)主體一致性:視頻中主要主體的外觀穩定性;2)場景一致性:背景、地點和環境元素的連貫性。對于圖像生成視頻(I2V)模型,我們另外評估:3)首幀保真度:生成視頻與輸入圖像的一致性,包括色彩保持、主體身份保留以及場景元素的連續性。

視覺質量

評估生成內容的空間保真度。1)視覺清晰度:視覺元素的銳度和清晰度;2)色彩準確性:色彩平衡合適,無過飽和現象;3)結構完整性:主體和背景無失真或損壞。

該全面評估框架使我們能夠系統性地比較不同模型的視頻生成能力,并識別出各模型在視頻質量各方面的特定優勢與弱點。


在評估中,由20位專業評估員使用1-5評分量表對每個維度進行評分,評分標準詳見下表4。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

最終結果匯總于下表5。評估結果顯示,本文的模型在指令遵循性方面相較基線方法取得了顯著提升,同時在運動質量方面保持了競爭力,且未犧牲一致性。為確保公平,所有模型均在默認設置下以一致分辨率進行評估,且未應用任何后處理濾波操作。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

模型基準測試與排行榜

為了客觀比較 SkyReels-V2 與其他領先開源視頻生成模型的性能,利用公共基準 VBench1.0 進行了全面評估。


本文特別采用了該基準中的長版本提示。在與基線模型公平對比時,我們嚴格遵循其推理推薦設置。同時,本文的模型在生成過程中使用了50次推理步數和6的引導尺度,與常規實踐保持一致。


VBench 結果(下表6)顯示,SkyReels-V2 在所有基線模型中表現最優,包括 HunyuanVideo-13B 和 Wan2.1-14B,取得了最高的總得分(83.9%)和質量得分(84.7%)。在此次評估中,語義得分略低于 Wan2.1-14B,但在此前的人工評估中優于 Wan2.1-14B,這一主要差距可歸因于 V-Bench 在鏡頭語義遵循性方面評估不充分。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

應用

故事生成

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

然而,視頻長度的擴展可能導致錯誤積累。本文采用一種穩定化技術,對先前生成的幀施加輕微噪聲標記,從而防止錯誤積累并進一步穩定長視頻生成過程。


在下圖8中,展示了將長鏡頭視頻擴展至超過30秒的示例,證明了在增強時間長度的同時維持視覺連貫性的能力。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

本文的模型不僅支持時間延展,還能夠生成具有引人入勝敘事的長鏡頭視頻。通過一系列敘事文本提示的引導,能夠協調一段多動作、具有視覺一致性的視頻敘述。該能力確保了場景之間的平滑過渡,使動態敘事成為可能,同時不影響視覺元素的完整性。

下圖9展示了用戶通過順序文本提示操控“小女孩的動作”“女人的表情”以及“引擎狀態”等屬性的實例。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

圖像生成視頻(I2V)合成

在本文的框架下,有兩種方法可用于開發圖像生成視頻(I2V)模型:


1)全序列文本生成視頻(T2V)擴散模型的微調(SkyReels-V2-I2V):參考 Wan 2.1 的 I2V 實現,我們在 T2V 架構基礎上引入第一幀圖像作為條件輸入。輸入圖像被填充至目標視頻長度,并通過 VAE 編碼器獲得圖像潛變量。


這些潛變量與噪聲潛變量和4個二值掩碼通道(第一幀為1,其余為0)拼接,使模型能夠利用參考幀進行后續生成。為了在微調過程中保留原始 T2V 能力,我們對新增的卷積層和交叉注意力中的圖像上下文至值投影進行零初始化,而其他新組件(如圖像上下文至鍵投影)采用隨機初始化,以最小化性能突變。


此外,I2V 訓練利用第3.2節所述的字幕生成框架生成的 I2V 特定提示。值得注意的是,該方法在 384 張 GPU 上僅使用 10,000 次訓練迭代即可取得具有競爭力的結果。


2)帶首幀條件的文本生成視頻擴散強制模型(SkyReels-V2-DF):本文的另一種方法直接利用擴散框架的條件機制,通過將第一幀作為干凈參考輸入,無需顯式重新訓練模型,同時通過潛變量約束保持時間一致性。


使用 SkyReels-Bench 評估套件對 SkyReels-V2 與領先的開源和閉源圖像生成視頻模型進行評估(見下表7)。評估結果顯示,無論是 SkyReels-V2-I2V(3.29)還是 SkyReels-V2-DF(3.24),都在開源模型中達到了最先進性能,顯著超越 HunyuanVideo-13B(2.84)和 Wan2.1-14B(2.85)在所有質量維度上的表現。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

SkyReels-V2-I2V 的平均得分為 3.29,與專有模型 Kling-1.6(3.4)和 Runway-Gen4(3.39)相當。基于這一有前景的結果,我們已公開發布 SkyReels-V2-I2V 模型,以推動圖像生成視頻合成的社區研究。

攝影導演模塊

盡管 SkyCaptioner-V1 在注釋攝影機動作方面表現穩健,實現了主體分布的良好平衡,但攝影機動作數據本身的不均衡性對進一步優化電影攝影參數構成挑戰。


為解決這一限制,本文從監督微調(SFT)數據集中特別策劃了約100萬個樣本,確保基本攝影機動作及其常見組合的均衡代表性。在此增強數據集基礎上,使用384張GPU進行了3,000次迭代的圖像生成視頻模型微調實驗。


該專項訓練顯著提升了攝影機運動的電影表現力,尤其是在流暢性和多樣性方面。

元素生成視頻(E2V)

當前視頻生成模型主要處理兩項任務:文本生成視頻(T2V)和圖像生成視頻(I2V)。T2V 利用 T5 或 CLIP 等文本編碼器從文本提示生成視頻,但往往因擴散過程的隨機性而產生不一致性。


I2V 則從靜態圖像及可選文本生成運動,但通常受限于對初始幀的過度依賴。


在先前的工作中,提出了一種元素生成視頻(E2V)任務,并發布了 SkyReels-A2,一個可控的視頻生成框架,能夠根據文本提示將任意視覺元素(如人物、物體、背景)合成為連貫視頻,同時確保每個元素參考圖像的高度保真度。


如下圖10所示,SkyReels-A2 能夠生成高質量、時間一致的視頻,并支持多元素的可編輯組合。

顛覆影視圈!全球首個開源「無限時長」電影生成模型炸場:昆侖萬維把視頻生成卷到新時代-AI.x社區

A2-Bench,一項用于全面評估 E2V 任務的新型基準測試,其結果與人工主觀評價表現出統計學顯著相關性。


未來計劃發布一個統一的視頻生成框架,支持更多輸入模態,如音頻和姿態。該框架將基于我們此前在音頻驅動和姿態驅動人像動畫的研究成果 SkyReels-A1 構建,旨在支持更豐富、多樣的輸入形式。


通過這一擴展,該框架的應用范圍將顯著擴大,涵蓋但不限于短劇制作、音樂視頻和虛擬電商內容創作等場景。

結論

SkyReels-V2模型,這是一種新穎的視頻生成框架,能夠在無限長度范圍內生成視頻,同時保持對鏡頭場景提示的高度遵循、優質視頻輸出和強健運動質量。


主要提升通過以下方面實現:

1)提示遵循性:通過 SkyCaptioner-V1 模塊增強,該模塊結合了通用多模態大語言模型(MLLM)與專用鏡頭專家模型的知識蒸餾,從而實現與輸入提示的精準對齊;

2)視頻質量:通過多樣化數據源和多階段訓練管pipeline著提升,確保視覺一致性和高保真度輸出;

3)運動質量:在半自動數據生產pipeline支持下,通過強化學習后訓練優化,進一步提升動態一致性與流暢性;

4)無限長度生成:由擴散強制框架支持,可無顯式長度約束地無縫擴展視頻內容。


盡管取得了這些進展,擴散強制框架仍在生成過程中存在錯誤積累的問題,限制了高質量視頻輸出的實際時長。未來工作將重點解決該問題,以進一步提升模型的可擴展性與可靠性。

本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/qq5I0PtmaNbrYXmu3B5owQ??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 色女人天堂| 天天干亚洲 | 一区二区免费在线视频 | 日韩 欧美 综合 | 亚洲+变态+欧美+另类+精品 | 日韩无 | 视频一区二区在线 | 国产精品视频免费观看 | 久久久久久亚洲精品不卡 | 日韩中文字幕视频在线 | 日本一本在线 | 久久小视频 | 男女午夜激情视频 | 国产成人精品一区二区三区视频 | 欧美精品在线免费观看 | 亚洲精品久久久久久一区二区 | 91精品国产乱码久久蜜臀 | 在线观看亚洲专区 | 日韩在线视频精品 | 国产精品久久久久久久 | аⅴ资源新版在线天堂 | 九九热这里 | 另类二区 | 国产一区二区三区免费观看视频 | 欧美在线高清 | 国产精品久久av | 日本欧美国产在线观看 | 亚洲一区二区三区在线视频 | xxx国产精品视频 | 在线日韩 | 女女爱爱视频 | 亚洲区一区二区 | 三级特黄特色视频 | 日韩在线中文字幕 | 亚洲国产在 | 国产精品高清在线 | 成人在线视频网站 | 日本在线视频中文字幕 | 久久蜜桃av一区二区天堂 | 99久久久国产精品免费消防器 | 久久精品久久精品久久精品 |